Purger l'index Google, robots.txt

st3phan3 · 23 Novembre 2011

Bonjour,

Je reprends un site sur lequel pour une même page on peut avoir une multitude d'url.
Ex. :
http://www.nomdedomaine.com/list.php?path=197&sort=Prix&page=30
Alors que :
http://www.nomdedomaine.com/list.php?path=197
suffit (pour le ref).

Bien sûr j'utilise les paramètres d'url fournis par la console Google. Mais cette technique est beaucoup plus longue qu'avec un fichier robots.txt.

Est-ce quelqu'un saurait me dire avec certitude comment demander à google, par le biais d'un fichier robot, ne pas prendre en compte toutes les urls dont l'extension va au delà de "?path=id, en gros toutes ces formes là :
http://www.nomdedomaine.com/list.php?path=197&sort=Prix&page=30

Mais en étant certain qu'il n'ignore pas du coup les bonnes urls simplifiées de cette forme ci :
http://www.nomdedomaine.com/list.php?path=197

Merci pour vos réponses

Ehplod · 23 Novembre 2011

Re: Purger l'index Google, robots.tx

Attention, le robots.txt ne sert pas à désindexer des pages mais à en interdire l'accès.
Si les pages sont déjà dans l'index de GG, les bots n'y accèderont plus, mais en aucun cas ils ne les supprimeront.

zeb · 23 Novembre 2011

Re: Purger l'index Google, robots.tx

c'est pas comme ça que je m'y prendrait perso :

Code:

<?php if(isset($_GET['sort']) || isset($_GET['page'])){
   echo '<meta name="robots" content="noindex" />';
}else{
   echo '<meta name="robots" content="ALL" />';
} ?>

genre, glissé là où ça va bien dans le code du site.

st3phan3 · 24 Novembre 2011

Re: Purger l'index Google, robots.tx

Ehplod a dit:
Attention, le robots.txt ne sert pas à désindexer des pages mais à en interdire l'accès.
Si les pages sont déjà dans l'index de GG, les bots n'y accèderont plus, mais en aucun cas ils ne les supprimeront.

On est bien d'accord, je souhaite simplement en interdire l'accès

st3phan3 · 24 Novembre 2011

Re: Purger l'index Google, robots.tx

zeb a dit:
c'est pas comme ça que je m'y prendrait perso :

Code:

<?php if(isset($_GET['sort']) || isset($_GET['page'])){ echo '<meta name="robots" content="noindex" />'; }else{ echo '<meta name="robots" content="ALL" />'; } ?>

genre, glissé là où ça va bien dans le code du site.

bonjour et merci pour la réponse.
Cependant je me permets d'insister.
Je sais que ça existe, je l'ai déjà vu dans les conseils Google aux webmasters.
C'est quelque chose du genre :
disallow:list.php?path=id&*
ou
disallow:list.php?path=id

J'aimerais avis et conseils d'un expert pour l'avoir utilisé. Je trouve la formule dangereuse, sans en être sûr. Je ne veux pas risquer de barrer l'accès aux "bonnes pages" mais j'aimerais lui faire comprendre que toutes les url à rallonge après list.php?path=id et ce, quel que soit id, ne doivent pas être visitées, comme par exemple http://www.nomdedomaine.com/list.php?path=197&sort=Prix&page=30 pour l'ID 197 alors que http://www.nomdedomaine.com/list.php?path=197 doit l'être, elle.

Je ne sais pas si je suis clair mais si un expert pouvait m'aider j'en serais vraiment heureux.

Merci pour vos réponses

lambi521 · 24 Novembre 2011

Code:

User-agent: *
Disallow: /*sort=
Disallow: /*page=

Cela empêchera Googlebot d'accéder aux URLs contenant ces paramètres. Dans GWT rubrique Configuration du site > Accès du robot d'exploration, tu peux justement tester tes règles et voir leur effet sur Googlebot.

Tu mets les règles que je t'ai données dans le 1er textarea, une URL que tu ne veux pas indexer + une URL que tu veux indexer dans le 2ème et tu lances le test. Il te dira exactement quelle URL sera crawlée par Googlebot et quelle URL ne le sera pas. Tu peux ainsi savoir à l'avance tous les effets de ton robots.txt et éviter de faire une (très grosse) bêtise.

Edit: Une fois ces règles mises en place, tu peux demander leur suppression via "Supression d'URL" dans GWT également, en indiquant les mêmes paramètres GET à éviter. Avec ça + les paramètres d'URLs bien réglés (dans GWT également, paramètres sur "Aucune URL"), tes pages disparaitront petit à petit.

st3phan3 · 24 Novembre 2011

lambi521 a dit:
Code:

User-agent: * Disallow: /*sort= Disallow: /*page=

Cela empêchera Googlebot d'accéder aux URLs contenant ces paramètres. Dans GWT rubrique Configuration du site > Accès du robot d'exploration, tu peux justement tester tes règles et voir leur effet sur Googlebot.

Tu mets les règles que je t'ai données dans le 1er textarea, une URL que tu ne veux pas indexer + une URL que tu veux indexer dans le 2ème et tu lances le test. Il te dira exactement quelle URL sera crawlée par Googlebot et quelle URL ne le sera pas. Tu peux ainsi savoir à l'avance tous les effets de ton robots.txt et éviter de faire une (très grosse) bêtise.

Edit: Une fois ces règles mises en place, tu peux demander leur suppression via "Supression d'URL" dans GWT également, en indiquant les mêmes paramètres GET à éviter. Avec ça + les paramètres d'URLs bien réglés (dans GWT également, paramètres sur "Aucune URL"), tes pages disparaitront petit à petit.

Merci beaucoup pour cette réponse très précise et qui me convient parfaitement.
Je vais tester tout ça.

st3phan3 · 25 Novembre 2011

J'ai suivi tes conseils lambi521.

Je reviens simplement sur ce sujet pour te remercier.
ça marche à la perfection.

lambi521 · 25 Novembre 2011

De rien

Et merci à toi, rares sont ceux qui reviennent pour remercier, ça fait toujours plaisir