Indexation non souhaitée de pages

Discussion dans 'Débuter en référencement' créé par thibaudecom, 28 Novembre 2013.

  1. thibaudecom
    thibaudecom Nouveau WRInaute
    Inscrit:
    27 Août 2013
    Messages:
    22
    J'aime reçus:
    0
    Bonjour,

    Ma question concerne l'indexation de pages "parasites" sur mon site.

    Lorsque je lance la commande site:http://www.maxirobots.com/
    et que je remonte jusqu'à la quinzième page, j'obtiens les pages ignorées pour cause de duplication de contenu.
    En cliquant sur "relancer la recherche pour inclure les résultats ignorés" j'ai un aperçu des pages considérées comme dupliquées.

    Le nombre de ces pages est d'environ 80. Quasiment toutes ces pages sont des pages panier..
    Exemple :

    [​IMG]

    J'ai donc ajouté l'attribut NoFollow à mes liens ajout au panier.
    <a class="button ajax_add_to_cart_button exclusive" rel="ajax_id_product_89 nofollow" href="http://www.maxirobots.com/panier?add=&amp;id_product=89&amp;token=7233c92c933269bab616ec02fac10874" title="Ajouter au panier">Ajouter au panier</a>

    Mes questions :
    Ces pages risquent-elles d'être pénalisantes pour mon site ?
    Si oui, comment les sortir de l'index ?

    J'ai également modifié mon fichier robots.txt mais ne faut-il pas rajouter un noindex directement dans le code ?

    Code:
    # robots.txt automaticaly generated by PrestaShop e-commerce open-source solution
    # http://www.prestashop.com - http://www.prestashop.com/forums
    # This file is to prevent the crawling and indexing of certain parts
    # of your site by web crawlers and spiders run by sites like Yahoo!
    # and Google. By telling these "robots" where not to go on your site,
    # you save bandwidth and server resources.
    # For more information about the robots.txt standard, see:
    # http://www.robotstxt.org/wc/robots.html
    User-agent: *
    # Private pages
    Disallow: /*orderby=
    Disallow: /*orderway=
    Disallow: /*tag=
    Disallow: /*id_currency=
    Disallow: /*search_query=
    Disallow: /*back=
    Disallow: /*n=
    Disallow: /*controller=addresses
    Disallow: /*controller=address
    Disallow: /*controller=authentication
    Disallow: /*controller=cart
    Disallow: /*controller=discount
    Disallow: /*controller=footer
    Disallow: /*controller=get-file
    Disallow: /*controller=header
    Disallow: /*controller=history
    Disallow: /*controller=identity
    Disallow: /*controller=images.inc
    Disallow: /*controller=init
    Disallow: /*controller=my-account
    Disallow: /*controller=order
    Disallow: /*controller=order-opc
    Disallow: /*controller=order-slip
    Disallow: /*controller=order-detail
    Disallow: /*controller=order-follow
    Disallow: /*controller=order-return
    Disallow: /*controller=order-confirmation
    Disallow: /*controller=pagination
    Disallow: /*controller=password
    Disallow: /*controller=pdf-invoice
    Disallow: /*controller=pdf-order-return
    Disallow: /*controller=pdf-order-slip
    Disallow: /*controller=product-sort
    Disallow: /*controller=search
    Disallow: /*controller=statistics
    Disallow: /*controller=attachment
    Disallow: /*controller=guest-tracking
    [b]Disallow: /*panier?
    Disallow: /commande*
    Disallow: /panier*[/b]
    # Directories
    Disallow: /*classes/
    Disallow: /*config/
    Disallow: /*download/
    Disallow: /*mails/
    Disallow: /*modules/
    Disallow: /*translations/
    Disallow: /*tools/
    # Files
    Disallow: /*fr/mot-de-passe-oublie
    Disallow: /*fr/adresse
    Disallow: /*fr/adresses
    Disallow: /*fr/authentification
    Disallow: /*fr/panier
    Disallow: /*fr/bons-de-reduction
    Disallow: /*fr/historique-des-commandes
    Disallow: /*fr/identite
    Disallow: /*fr/mon-compte
    Disallow: /*fr/details-de-la-commande
    Disallow: /*fr/avoirs
    Disallow: /*fr/recherche
    Disallow: /*fr/commande-rapide
    Disallow: /*fr/suivi-commande-invite
    Disallow: /*fr/confirmation-commande
    J'ai également ce genre de résultats qui sont probablement gênants ?
    [​IMG]

    J'espère que ma problématique n'est pas trop "brouillon" et remercie par avance ceux qui répondront. Si vous avez également des remarques plus générales sur notre site d'un point de vue général, SEO, je prends avec plaisir :)

    Thibaud
     
  2. nickargall
    nickargall WRInaute accro
    Inscrit:
    13 Juin 2005
    Messages:
    6 601
    J'aime reçus:
    4
    Hello
    En effet, il faut ajouter une meta noindex sur les URL à désindexer, et ne pas interdire le crawl, sinon les moteurs n'iront pas les rescanner et ne verront pas qu'elles ne doivent plus être indexées.
    Idem pour l'attribut nofollow, ce n'est pas son ajout qui fera désindexer la page cible.
     
  3. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 021
    J'aime reçus:
    1
    Sans parler du fait que bloquer du jus en interne (puisqu'il disparait via le lien sans profiter ailleurs) est pas forcement une bonne idée.
     
  4. Uyuni
    Uyuni WRInaute occasionnel
    Inscrit:
    4 Avril 2012
    Messages:
    258
    J'aime reçus:
    6
    vive prestashop...
     
  5. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 274
    J'aime reçus:
    0
    le problème vient de gg : à vouloir continuer à jouer à qui a la plus grande, il indexe les url bloquées par robots.txt et ajoute son petit texte relatif aux données pas affichées cause robots.txt, blahblahblah
    sauf que s'il ne jouait pas à ça, seules les pages avec du contenu accessible dans les serp serait affiché et ça n'en serait que mieux.
    comme si les scrappeurs de m... n'étaient pas suffisant pour pourrir les serp, non, faut que gg le fasse aussi :evil:
     
  6. Koxin-L.fr
    Koxin-L.fr WRInaute passionné
    Inscrit:
    15 Janvier 2012
    Messages:
    1 879
    J'aime reçus:
    6
    Ca fait des années que je dis que ce que l'on ne veut pas voir indexé ne doit pas dépendre du robots.txt, mais d'un blocage htaccess (ou php).
    Evidement c'est plus compliqué à mettre en place.
     
  7. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 021
    J'aime reçus:
    1
    le meta noindex marche pas trop mal mais c'est con c'est souvent par peur de GG qu'on l'utilise alors qu'ailleurs ça pourrait servir.
     
  8. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    9 181
    J'aime reçus:
    351
    Oui on peux aussi exploiter les failles SQL avec Google qui nous fourni un magnifique bot pour crawler tout ça:
    http://blog.sucuri.net/2013/11/google-bots-doing-sql-injection-attacks.html
    H4ck3d by G00gl3 :lol:

    Et le supermarché de la faille, c'est Github: https://github.com/search?p=3&q=extension%3Aphp+mysql_query+%24_GET&re ... &type=Code
     
  9. thibaudecom
    thibaudecom Nouveau WRInaute
    Inscrit:
    27 Août 2013
    Messages:
    22
    J'aime reçus:
    0
    Bonjour,

    Je me permets de relancer la discussion. La problématique des pages paniers a été stoppée notamment grâce aux conseils donnés ici. (La mise en place du noindex a permis d'arrêter la création de pages panier. Je vais maintenant désindexer manuellement les urls encore présentes dans l'index duplicate de google afin de supprimer ces anciennes pages)

    L'interrogation qui persiste concerne nos pages catégories, et le fait que le système de tri, filtre et pagination de Prestashop génère de multiples pages alors que la seule qui nous intéresse et la page d'origine. Quelle est la meilleure solution à mettre en oueuvre : l'url canonique ?

    Merci

    Thibaud
     
  10. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 021
    J'aime reçus:
    1
    La pagination a titre perso je la laisse indexer car ces pages contiennent des liens qui peuvent être utiles a l'internaute et souvent (chez moi) cela forme un contenu différent a chaque page donc potentiellement indexable avec intérêt.

    Pour les autre pages issues de tri, c'est pareil le noindex est roi d'autant qu'on peut assimiler ses pages a des résultats de recherche ce qui contreviens aux principes de m*rd* de GG dans ses guideline.

    Après dans cette histoire puisque tu est branché sur ce "ménage" pense a faire un bilan comparatif de ce que t'envoient les autres moteurs via ces pages (même si c'est pas grand chose) car il peut être intéressant de cloaker la noindex pour que les autres ne la prenne pas en compte.
     
Chargement...
Similar Threads - Indexation souhaitée Forum Date
Indexations non souhaitées (phpBB) URL Rewriting et .htaccess 4 Avril 2005
WordPress Site multilingues - Mauvaise indexation Crawl et indexation Google, sitemaps Mardi à 09:47
Problème de crawl et d'indexation Crawl et indexation Google, sitemaps 1 Septembre 2022
Indexation page de paiement ? Crawl et indexation Google, sitemaps 17 Août 2022
Problème d'indexation de backlinks Débuter en référencement 24 Juillet 2022
Problème d'indexation de backlinks Problèmes de référencement spécifiques à vos sites 21 Juillet 2022
Désindexation images en changeant de format (passage à WebP) Crawl et indexation Google, sitemaps 12 Juillet 2022
6 mois après, pas d'indexation correcte dans Google Problèmes de référencement spécifiques à vos sites 8 Juillet 2022
Problème désindexation des pages de Google Débuter en référencement 21 Juin 2022
Indexation à rebours. Crawl et indexation Google, sitemaps 5 Juin 2022
Problème d'indexation de pages sur Google Problèmes de référencement spécifiques à vos sites 31 Mai 2022
référencement site en anglais : indexation plus longue Référencement international (langues, pays) 13 Mai 2022
Problème d'indexation Produits Prestashop Crawl et indexation Google, sitemaps 28 Avril 2022
Problème indexation pages précises en React.js Débuter en référencement 19 Avril 2022
Pourquoi ne pas utiliser le robots.txt pour interdire l'indexation ? Débuter en référencement 14 Avril 2022
Conseil pour accélérer l'indexation de mon nouveau site Problèmes de référencement spécifiques à vos sites 9 Avril 2022
Comment puis-je obtenir l'indexation instantanée de Google ? Débuter en référencement 28 Mars 2022
Questions URL canonique, crawl et indexation Débuter en référencement 25 Mars 2022
Indexation de mon site dans Google Problèmes de référencement spécifiques à vos sites 13 Mars 2022
Search Console Problème d'indexation Crawl et indexation Google, sitemaps 24 Février 2022