Indexation non souhaitée de pages

thibaudecom · 28 Novembre 2013

Bonjour,

Ma question concerne l'indexation de pages "parasites" sur mon site.

Lorsque je lance la commande site:http://www.maxirobots.com/
et que je remonte jusqu'à la quinzième page, j'obtiens les pages ignorées pour cause de duplication de contenu.
En cliquant sur "relancer la recherche pour inclure les résultats ignorés" j'ai un aperçu des pages considérées comme dupliquées.

Le nombre de ces pages est d'environ 80. Quasiment toutes ces pages sont des pages panier..
Exemple :

J'ai donc ajouté l'attribut NoFollow à mes liens ajout au panier.
<a class="button ajax_add_to_cart_button exclusive" rel="ajax_id_product_89 nofollow" href="http://www.maxirobots.com/panier?add=&id_product=89&token=7233c92c933269bab616ec02fac10874" title="Ajouter au panier">Ajouter au panier</a>

Mes questions :
Ces pages risquent-elles d'être pénalisantes pour mon site ?
Si oui, comment les sortir de l'index ?

J'ai également modifié mon fichier robots.txt mais ne faut-il pas rajouter un noindex directement dans le code ?

Code:

# robots.txt automaticaly generated by PrestaShop e-commerce open-source solution
# http://www.prestashop.com - http://www.prestashop.com/forums
# This file is to prevent the crawling and indexing of certain parts
# of your site by web crawlers and spiders run by sites like Yahoo!
# and Google. By telling these "robots" where not to go on your site,
# you save bandwidth and server resources.
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/wc/robots.html
User-agent: *
# Private pages
Disallow: /*orderby=
Disallow: /*orderway=
Disallow: /*tag=
Disallow: /*id_currency=
Disallow: /*search_query=
Disallow: /*back=
Disallow: /*n=
Disallow: /*controller=addresses
Disallow: /*controller=address
Disallow: /*controller=authentication
Disallow: /*controller=cart
Disallow: /*controller=discount
Disallow: /*controller=footer
Disallow: /*controller=get-file
Disallow: /*controller=header
Disallow: /*controller=history
Disallow: /*controller=identity
Disallow: /*controller=images.inc
Disallow: /*controller=init
Disallow: /*controller=my-account
Disallow: /*controller=order
Disallow: /*controller=order-opc
Disallow: /*controller=order-slip
Disallow: /*controller=order-detail
Disallow: /*controller=order-follow
Disallow: /*controller=order-return
Disallow: /*controller=order-confirmation
Disallow: /*controller=pagination
Disallow: /*controller=password
Disallow: /*controller=pdf-invoice
Disallow: /*controller=pdf-order-return
Disallow: /*controller=pdf-order-slip
Disallow: /*controller=product-sort
Disallow: /*controller=search
Disallow: /*controller=statistics
Disallow: /*controller=attachment
Disallow: /*controller=guest-tracking
[b]Disallow: /*panier?
Disallow: /commande*
Disallow: /panier*[/b]
# Directories
Disallow: /*classes/
Disallow: /*config/
Disallow: /*download/
Disallow: /*mails/
Disallow: /*modules/
Disallow: /*translations/
Disallow: /*tools/
# Files
Disallow: /*fr/mot-de-passe-oublie
Disallow: /*fr/adresse
Disallow: /*fr/adresses
Disallow: /*fr/authentification
Disallow: /*fr/panier
Disallow: /*fr/bons-de-reduction
Disallow: /*fr/historique-des-commandes
Disallow: /*fr/identite
Disallow: /*fr/mon-compte
Disallow: /*fr/details-de-la-commande
Disallow: /*fr/avoirs
Disallow: /*fr/recherche
Disallow: /*fr/commande-rapide
Disallow: /*fr/suivi-commande-invite
Disallow: /*fr/confirmation-commande

J'ai également ce genre de résultats qui sont probablement gênants ?

J'espère que ma problématique n'est pas trop "brouillon" et remercie par avance ceux qui répondront. Si vous avez également des remarques plus générales sur notre site d'un point de vue général, SEO, je prends avec plaisir

Thibaud

nickargall · 28 Novembre 2013

Hello
En effet, il faut ajouter une meta noindex sur les URL à désindexer, et ne pas interdire le crawl, sinon les moteurs n'iront pas les rescanner et ne verront pas qu'elles ne doivent plus être indexées.
Idem pour l'attribut nofollow, ce n'est pas son ajout qui fera désindexer la page cible.

zeb · 28 Novembre 2013

nickargall a dit:
l'attribut nofollow, ce n'est pas son ajout qui fera désindexer la page cible.

Sans parler du fait que bloquer du jus en interne (puisqu'il disparait via le lien sans profiter ailleurs) est pas forcement une bonne idée.

Uyuni · 28 Novembre 2013

vive prestashop...

Leonick · 28 Novembre 2013

le problème vient de gg : à vouloir continuer à jouer à qui a la plus grande, il indexe les url bloquées par robots.txt et ajoute son petit texte relatif aux données pas affichées cause robots.txt, blahblahblah
sauf que s'il ne jouait pas à ça, seules les pages avec du contenu accessible dans les serp serait affiché et ça n'en serait que mieux.
comme si les scrappeurs de m... n'étaient pas suffisant pour pourrir les serp, non, faut que gg le fasse aussi :evil:

Koxin-L.fr · 28 Novembre 2013

Leonick a dit:
le problème vient de gg : à vouloir continuer à jouer à qui a la plus grande, il indexe les url bloquées par robots.txt

Ca fait des années que je dis que ce que l'on ne veut pas voir indexé ne doit pas dépendre du robots.txt, mais d'un blocage htaccess (ou php).
Evidement c'est plus compliqué à mettre en place.

zeb · 28 Novembre 2013

le meta noindex marche pas trop mal mais c'est con c'est souvent par peur de GG qu'on l'utilise alors qu'ailleurs ça pourrait servir.

spout · 28 Novembre 2013

Leonick a dit:
comme si les scrappeurs de m... n'étaient pas suffisant pour pourrir les serp, non, faut que gg le fasse aussi :evil:

Oui on peux aussi exploiter les failles SQL avec Google qui nous fourni un magnifique bot pour crawler tout ça:
http://blog.sucuri.net/2013/11/google-bots-doing-sql-injection-attacks.html
H4ck3d by G00gl3 :lol:

Et le supermarché de la faille, c'est Github: https://github.com/search?p=3&q=extension%3Aphp+mysql_query+%24_GET&re ... &type=Code

thibaudecom · 11 Décembre 2013

Bonjour,

Je me permets de relancer la discussion. La problématique des pages paniers a été stoppée notamment grâce aux conseils donnés ici. (La mise en place du noindex a permis d'arrêter la création de pages panier. Je vais maintenant désindexer manuellement les urls encore présentes dans l'index duplicate de google afin de supprimer ces anciennes pages)

L'interrogation qui persiste concerne nos pages catégories, et le fait que le système de tri, filtre et pagination de Prestashop génère de multiples pages alors que la seule qui nous intéresse et la page d'origine. Quelle est la meilleure solution à mettre en oueuvre : l'url canonique ?

Merci

Thibaud

zeb · 11 Décembre 2013

La pagination a titre perso je la laisse indexer car ces pages contiennent des liens qui peuvent être utiles a l'internaute et souvent (chez moi) cela forme un contenu différent a chaque page donc potentiellement indexable avec intérêt.

Pour les autre pages issues de tri, c'est pareil le noindex est roi d'autant qu'on peut assimiler ses pages a des résultats de recherche ce qui contreviens aux principes de m*rd* de GG dans ses guideline.

Après dans cette histoire puisque tu est branché sur ce "ménage" pense a faire un bilan comparatif de ce que t'envoient les autres moteurs via ces pages (même si c'est pas grand chose) car il peut être intéressant de cloaker la noindex pour que les autres ne la prenne pas en compte.