Bloquer l'accés à des "sous-liens" en utilisant robots.txt

Nouveau WRInaute
Bonjour,

Je voudrai empêcher les robots (et principalement Google) de lire certaines pages de mon site. Habituellement j’utilise cette fonction dans le fichier robots.txt du site : Disallow: /contact_us.php

MAIS ! Permettez-moi de vous exposer un peu plus en détail le problème :

Sur mon site (oscommerce), j’ai des rayons comme celui-ci : http://www.monsite.fr/chemises-c-2.html et lorsque l’on clique sur le lien chemise par exemple, j’ai d’autres « sous-liens » qui s’affiche afin de permettre les clients de visualiser les chemises disponibles dans leur taille :

Taille 36 ( http://www.monsite.fr/chemises-c-2.html?sizeRange=1 )
Taille 38 ( http://www.monsite.fr/chemises-c-2.html?sizeRange=2 )
Taille 40 etc… ( http://www.monsite.fr/chemises-c-2.html?sizeRange=3 )

Du coup, dans mon interface de « Google gestion Webmaster », google m’indique que j’ai des balises titles et meta en double, car effectivement le même article peu s’afficher dans plusieurs taille.

Pou faire simple je voudrai donc autoriser google à n’aller QUE dans le rayon principal des chemises, (car ce rayon affiche déjà toutes les tailles disponibles http://www.monsite.fr/chemises-c-2.html) et l’EMPECHER d’aller dans les sous-rayons de tailles qui comporte donc une variable « sizeRange ».

Est-ce que je peu donc simplement indiquer ceci dans mon fichier robots.txt :

Disallow: /http://www.monsite.fr/chemises-c-2.html?sizeRange=1
Disallow: /http://www.monsite.fr/chemises-c-2.html?sizeRange=2
Disallow: /http://www.monsite.fr/chemises-c-2.html?sizeRange=3
Ect .. ?

Mais est ce que ceci ne va pas bloquer l’accès au lien http://www.monsite.fr/chemises-c-2.html ?

Et dans le cas ou cela est possible, dois-je indiquer autant de « Disallow: » que j’ai de taille dans « sizeRange » ?

J’espère que j’ai été assez clair dans la description de mon problème, et je vous souhaite à tous une agréable journée.
 
WRInaute accro
Tu peux mettre un joker
Disallow: /http://www.monsite.fr/chemises-c-2.html?* ou
Disallow: /http://www.monsite.fr/chemises-c-2.html?sizeRange*
 
WRInaute accro
Oui, puisque ce n'est pas la même url . Et en cas de doute tu peux vérifier ton fichier dans GWT et tester des urls
 
WRInaute accro
Bonjour

Il faudra qu'un jour je me mette sérieusement à étudier le robots.txt (je n'en connais que les bases...) ; par contre avec cette méthode, cela sous-entend de gérer chaque page d'article avec des tailles séparément ?

Ou y'a moyen d'inclure un "joker" pour les articles ?

Sur les sites e-commerce que je gère je procède différemment : détection de la présence des variables "indésirables" (elles sont lisibles en PHP) et le cas échéant, notification pour positionner la balise META Robots à "noindex,follow".

Fonctionne plutôt bien.
 
WRInaute accro
Tu peux inclure un joker,si tu vas voir sur mon site j'avais fait un article sur le robots.txt des sites wordpress si c'est pour toi.
 
WRInaute accro
Sinon il est aussi possible de vérifier si $_GET['sizeRange'] est renseigné, et d'envoyer un <meta name="robots" content="noindex" />.
 
Nouveau WRInaute
HawkEye a dit:
Sinon il est aussi possible de vérifier si $_GET['sizeRange'] est renseigné, et d'envoyer un <meta name="robots" content="noindex" />.

Merci,

J'ai donc retenu 2 méthodes efficaces pour régler mon problème de multiple-référencement :

1) Celle citée ci-dessus.
2) Et la méthode joker (Disallow: /http://www.monsite.fr/chemises-c-2.html?sizeRange*).

L'une de ces solutions est-elle plus "Propre, ou conventionnelle" que l'autre ou est-ce la même chose aux yeux de GoOgle ?

Encore une fois, merci pour vos conseils.
 
Discussions similaires
Haut