Purger l'index Google, robots.txt

Nouveau WRInaute
Bonjour,

Je reprends un site sur lequel pour une même page on peut avoir une multitude d'url.
Ex. :
http://www.nomdedomaine.com/list.php?path=197&sort=Prix&page=30
Alors que :
http://www.nomdedomaine.com/list.php?path=197
suffit (pour le ref).

Bien sûr j'utilise les paramètres d'url fournis par la console Google. Mais cette technique est beaucoup plus longue qu'avec un fichier robots.txt.

Est-ce quelqu'un saurait me dire avec certitude comment demander à google, par le biais d'un fichier robot, ne pas prendre en compte toutes les urls dont l'extension va au delà de "?path=id, en gros toutes ces formes là :
http://www.nomdedomaine.com/list.php?path=197&sort=Prix&page=30

Mais en étant certain qu'il n'ignore pas du coup les bonnes urls simplifiées de cette forme ci :
http://www.nomdedomaine.com/list.php?path=197

Merci pour vos réponses
 
WRInaute impliqué
Re: Purger l'index Google, robots.tx

Attention, le robots.txt ne sert pas à désindexer des pages mais à en interdire l'accès.
Si les pages sont déjà dans l'index de GG, les bots n'y accèderont plus, mais en aucun cas ils ne les supprimeront.
 
WRInaute accro
Re: Purger l'index Google, robots.tx

c'est pas comme ça que je m'y prendrait perso :

Code:
<?php if(isset($_GET['sort']) || isset($_GET['page'])){
   echo '<meta name="robots" content="noindex" />';
}else{
   echo '<meta name="robots" content="ALL" />';
} ?>

genre, glissé là où ça va bien dans le code du site.
 
Nouveau WRInaute
Re: Purger l'index Google, robots.tx

Ehplod a dit:
Attention, le robots.txt ne sert pas à désindexer des pages mais à en interdire l'accès.
Si les pages sont déjà dans l'index de GG, les bots n'y accèderont plus, mais en aucun cas ils ne les supprimeront.

On est bien d'accord, je souhaite simplement en interdire l'accès
 
Nouveau WRInaute
Re: Purger l'index Google, robots.tx

zeb a dit:
c'est pas comme ça que je m'y prendrait perso :

Code:
<?php if(isset($_GET['sort']) || isset($_GET['page'])){
   echo '<meta name="robots" content="noindex" />';
}else{
   echo '<meta name="robots" content="ALL" />';
} ?>

genre, glissé là où ça va bien dans le code du site.

bonjour et merci pour la réponse.
Cependant je me permets d'insister.
Je sais que ça existe, je l'ai déjà vu dans les conseils Google aux webmasters.
C'est quelque chose du genre :
disallow:list.php?path=id&*
ou
disallow:list.php?path=id

J'aimerais avis et conseils d'un expert pour l'avoir utilisé. Je trouve la formule dangereuse, sans en être sûr. Je ne veux pas risquer de barrer l'accès aux "bonnes pages" mais j'aimerais lui faire comprendre que toutes les url à rallonge après list.php?path=id et ce, quel que soit id, ne doivent pas être visitées, comme par exemple http://www.nomdedomaine.com/list.php?path=197&sort=Prix&page=30 pour l'ID 197 alors que http://www.nomdedomaine.com/list.php?path=197 doit l'être, elle.

Je ne sais pas si je suis clair mais si un expert pouvait m'aider j'en serais vraiment heureux.

Merci pour vos réponses
 
WRInaute passionné
Code:
User-agent: *
Disallow: /*sort=
Disallow: /*page=
Cela empêchera Googlebot d'accéder aux URLs contenant ces paramètres. Dans GWT rubrique Configuration du site > Accès du robot d'exploration, tu peux justement tester tes règles et voir leur effet sur Googlebot.

Tu mets les règles que je t'ai données dans le 1er textarea, une URL que tu ne veux pas indexer + une URL que tu veux indexer dans le 2ème et tu lances le test. Il te dira exactement quelle URL sera crawlée par Googlebot et quelle URL ne le sera pas. Tu peux ainsi savoir à l'avance tous les effets de ton robots.txt et éviter de faire une (très grosse) bêtise.

Edit: Une fois ces règles mises en place, tu peux demander leur suppression via "Supression d'URL" dans GWT également, en indiquant les mêmes paramètres GET à éviter. Avec ça + les paramètres d'URLs bien réglés (dans GWT également, paramètres sur "Aucune URL"), tes pages disparaitront petit à petit.
 
Nouveau WRInaute
lambi521 a dit:
Code:
User-agent: *
Disallow: /*sort=
Disallow: /*page=
Cela empêchera Googlebot d'accéder aux URLs contenant ces paramètres. Dans GWT rubrique Configuration du site > Accès du robot d'exploration, tu peux justement tester tes règles et voir leur effet sur Googlebot.

Tu mets les règles que je t'ai données dans le 1er textarea, une URL que tu ne veux pas indexer + une URL que tu veux indexer dans le 2ème et tu lances le test. Il te dira exactement quelle URL sera crawlée par Googlebot et quelle URL ne le sera pas. Tu peux ainsi savoir à l'avance tous les effets de ton robots.txt et éviter de faire une (très grosse) bêtise.

Edit: Une fois ces règles mises en place, tu peux demander leur suppression via "Supression d'URL" dans GWT également, en indiquant les mêmes paramètres GET à éviter. Avec ça + les paramètres d'URLs bien réglés (dans GWT également, paramètres sur "Aucune URL"), tes pages disparaitront petit à petit.

Merci beaucoup pour cette réponse très précise et qui me convient parfaitement.
Je vais tester tout ça.
 
Discussions similaires
Haut