Indexation non souhaitée de pages

Discussion dans 'Débuter en référencement' créé par thibaudecom, 28 Novembre 2013.

  1. thibaudecom
    thibaudecom Nouveau WRInaute
    Inscrit:
    27 Août 2013
    Messages:
    22
    J'aime reçus:
    0
    Bonjour,

    Ma question concerne l'indexation de pages "parasites" sur mon site.

    Lorsque je lance la commande site:http://www.maxirobots.com/
    et que je remonte jusqu'à la quinzième page, j'obtiens les pages ignorées pour cause de duplication de contenu.
    En cliquant sur "relancer la recherche pour inclure les résultats ignorés" j'ai un aperçu des pages considérées comme dupliquées.

    Le nombre de ces pages est d'environ 80. Quasiment toutes ces pages sont des pages panier..
    Exemple :

    [​IMG]

    J'ai donc ajouté l'attribut NoFollow à mes liens ajout au panier.
    <a class="button ajax_add_to_cart_button exclusive" rel="ajax_id_product_89 nofollow" href="http://www.maxirobots.com/panier?add=&amp;id_product=89&amp;token=7233c92c933269bab616ec02fac10874" title="Ajouter au panier">Ajouter au panier</a>

    Mes questions :
    Ces pages risquent-elles d'être pénalisantes pour mon site ?
    Si oui, comment les sortir de l'index ?

    J'ai également modifié mon fichier robots.txt mais ne faut-il pas rajouter un noindex directement dans le code ?

    Code:
    # robots.txt automaticaly generated by PrestaShop e-commerce open-source solution
    # http://www.prestashop.com - http://www.prestashop.com/forums
    # This file is to prevent the crawling and indexing of certain parts
    # of your site by web crawlers and spiders run by sites like Yahoo!
    # and Google. By telling these "robots" where not to go on your site,
    # you save bandwidth and server resources.
    # For more information about the robots.txt standard, see:
    # http://www.robotstxt.org/wc/robots.html
    User-agent: *
    # Private pages
    Disallow: /*orderby=
    Disallow: /*orderway=
    Disallow: /*tag=
    Disallow: /*id_currency=
    Disallow: /*search_query=
    Disallow: /*back=
    Disallow: /*n=
    Disallow: /*controller=addresses
    Disallow: /*controller=address
    Disallow: /*controller=authentication
    Disallow: /*controller=cart
    Disallow: /*controller=discount
    Disallow: /*controller=footer
    Disallow: /*controller=get-file
    Disallow: /*controller=header
    Disallow: /*controller=history
    Disallow: /*controller=identity
    Disallow: /*controller=images.inc
    Disallow: /*controller=init
    Disallow: /*controller=my-account
    Disallow: /*controller=order
    Disallow: /*controller=order-opc
    Disallow: /*controller=order-slip
    Disallow: /*controller=order-detail
    Disallow: /*controller=order-follow
    Disallow: /*controller=order-return
    Disallow: /*controller=order-confirmation
    Disallow: /*controller=pagination
    Disallow: /*controller=password
    Disallow: /*controller=pdf-invoice
    Disallow: /*controller=pdf-order-return
    Disallow: /*controller=pdf-order-slip
    Disallow: /*controller=product-sort
    Disallow: /*controller=search
    Disallow: /*controller=statistics
    Disallow: /*controller=attachment
    Disallow: /*controller=guest-tracking
    [b]Disallow: /*panier?
    Disallow: /commande*
    Disallow: /panier*[/b]
    # Directories
    Disallow: /*classes/
    Disallow: /*config/
    Disallow: /*download/
    Disallow: /*mails/
    Disallow: /*modules/
    Disallow: /*translations/
    Disallow: /*tools/
    # Files
    Disallow: /*fr/mot-de-passe-oublie
    Disallow: /*fr/adresse
    Disallow: /*fr/adresses
    Disallow: /*fr/authentification
    Disallow: /*fr/panier
    Disallow: /*fr/bons-de-reduction
    Disallow: /*fr/historique-des-commandes
    Disallow: /*fr/identite
    Disallow: /*fr/mon-compte
    Disallow: /*fr/details-de-la-commande
    Disallow: /*fr/avoirs
    Disallow: /*fr/recherche
    Disallow: /*fr/commande-rapide
    Disallow: /*fr/suivi-commande-invite
    Disallow: /*fr/confirmation-commande
    J'ai également ce genre de résultats qui sont probablement gênants ?
    [​IMG]

    J'espère que ma problématique n'est pas trop "brouillon" et remercie par avance ceux qui répondront. Si vous avez également des remarques plus générales sur notre site d'un point de vue général, SEO, je prends avec plaisir :)

    Thibaud
     
  2. nickargall
    nickargall WRInaute accro
    Inscrit:
    13 Juin 2005
    Messages:
    6 604
    J'aime reçus:
    4
    Hello
    En effet, il faut ajouter une meta noindex sur les URL à désindexer, et ne pas interdire le crawl, sinon les moteurs n'iront pas les rescanner et ne verront pas qu'elles ne doivent plus être indexées.
    Idem pour l'attribut nofollow, ce n'est pas son ajout qui fera désindexer la page cible.
     
  3. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 025
    J'aime reçus:
    1
    Sans parler du fait que bloquer du jus en interne (puisqu'il disparait via le lien sans profiter ailleurs) est pas forcement une bonne idée.
     
  4. Uyuni
    Uyuni WRInaute occasionnel
    Inscrit:
    4 Avril 2012
    Messages:
    258
    J'aime reçus:
    6
    vive prestashop...
     
  5. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 276
    J'aime reçus:
    0
    le problème vient de gg : à vouloir continuer à jouer à qui a la plus grande, il indexe les url bloquées par robots.txt et ajoute son petit texte relatif aux données pas affichées cause robots.txt, blahblahblah
    sauf que s'il ne jouait pas à ça, seules les pages avec du contenu accessible dans les serp serait affiché et ça n'en serait que mieux.
    comme si les scrappeurs de m... n'étaient pas suffisant pour pourrir les serp, non, faut que gg le fasse aussi :evil:
     
  6. Koxin-L.fr
    Koxin-L.fr WRInaute passionné
    Inscrit:
    15 Janvier 2012
    Messages:
    1 879
    J'aime reçus:
    6
    Ca fait des années que je dis que ce que l'on ne veut pas voir indexé ne doit pas dépendre du robots.txt, mais d'un blocage htaccess (ou php).
    Evidement c'est plus compliqué à mettre en place.
     
  7. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 025
    J'aime reçus:
    1
    le meta noindex marche pas trop mal mais c'est con c'est souvent par peur de GG qu'on l'utilise alors qu'ailleurs ça pourrait servir.
     
  8. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    9 134
    J'aime reçus:
    325
    Oui on peux aussi exploiter les failles SQL avec Google qui nous fourni un magnifique bot pour crawler tout ça:
    http://blog.sucuri.net/2013/11/google-bots-doing-sql-injection-attacks.html
    H4ck3d by G00gl3 :lol:

    Et le supermarché de la faille, c'est Github: https://github.com/search?p=3&q=extension%3Aphp+mysql_query+%24_GET&re ... &type=Code
     
  9. thibaudecom
    thibaudecom Nouveau WRInaute
    Inscrit:
    27 Août 2013
    Messages:
    22
    J'aime reçus:
    0
    Bonjour,

    Je me permets de relancer la discussion. La problématique des pages paniers a été stoppée notamment grâce aux conseils donnés ici. (La mise en place du noindex a permis d'arrêter la création de pages panier. Je vais maintenant désindexer manuellement les urls encore présentes dans l'index duplicate de google afin de supprimer ces anciennes pages)

    L'interrogation qui persiste concerne nos pages catégories, et le fait que le système de tri, filtre et pagination de Prestashop génère de multiples pages alors que la seule qui nous intéresse et la page d'origine. Quelle est la meilleure solution à mettre en oueuvre : l'url canonique ?

    Merci

    Thibaud
     
  10. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 025
    J'aime reçus:
    1
    La pagination a titre perso je la laisse indexer car ces pages contiennent des liens qui peuvent être utiles a l'internaute et souvent (chez moi) cela forme un contenu différent a chaque page donc potentiellement indexable avec intérêt.

    Pour les autre pages issues de tri, c'est pareil le noindex est roi d'autant qu'on peut assimiler ses pages a des résultats de recherche ce qui contreviens aux principes de m*rd* de GG dans ses guideline.

    Après dans cette histoire puisque tu est branché sur ce "ménage" pense a faire un bilan comparatif de ce que t'envoient les autres moteurs via ces pages (même si c'est pas grand chose) car il peut être intéressant de cloaker la noindex pour que les autres ne la prenne pas en compte.
     
Chargement...
Similar Threads - Indexation souhaitée Forum Date
Indexations non souhaitées (phpBB) URL Rewriting et .htaccess 4 Avril 2005
Problème d'indexation Google Problèmes de référencement spécifiques à vos sites Mercredi à 22:56
Changement d'indexation des urls de mon site. Administration d'un site Web 22 Décembre 2021
Ecosia : problème d'indexation Autres moteurs de recherche connus 4 Décembre 2021
Quelle indexation pour un arbre n-aire sans ordre ? Développement d'un site Web ou d'une appli mobile 9 Octobre 2021
Demande d'indexation refusée Crawl et indexation Google, sitemaps 30 Septembre 2021
Problème d'indexation Google : que faire ? Crawl et indexation Google, sitemaps 21 Septembre 2021
WordPress Problème d'indexation de mon article Demandes d'avis et de conseils sur vos sites 19 Août 2021
Formulaire pour signaler des bugs d'indexation Google Crawl et indexation Google, sitemaps 17 Août 2021
problème lors de l indexation de mes fichiers Crawl et indexation Google, sitemaps 15 Août 2021
Problèmes - Indexation et Sitemap Problèmes de référencement spécifiques à vos sites 10 Août 2021
problème avec l indexation de mes fichiers Problèmes de référencement spécifiques à vos sites 8 Août 2021
"Forcer" l'indexation suite noindex Débuter en référencement 14 Juin 2021
Service d'indexation Crawl et indexation Google, sitemaps 31 Mai 2021
Search Console Problème d'indexation : Détectée, actuellement non indexée Référencement Google 16 Mai 2021
Désindexation d'urls Problèmes de référencement spécifiques à vos sites 19 Avril 2021
Crawl et indexation Landing Page (site en création) Débuter en référencement 25 Mars 2021
Mauvaise indexation de mon blog Crawl et indexation Google, sitemaps 23 Mars 2021
Je débute dans l'indexation d'une boutique en ligne e-commerce 17 Mars 2021
Problème d'indexation : pages non indexées après 3 mois d'attente Crawl et indexation Google, sitemaps 12 Mars 2021