Robost.txt : Usage d'un * dans la commande Disallow

srappaille · 26 Octobre 2004

Bonjour,

Dans la cadre de la rédaction d'un fichier robots.txt, je tente d'exclure tout type de fichier portant l'extension "php". Langage anciennement utilisé sur mon site et dont les anciennes pages restent - contre toute attente - indexées par Google depuis un an ; ces pages n'existent plus.

Sur votre rubrique relative au fichier "robots.txt", je lis qu'il n'est pas possible de réaliser cela car la commande "disallow" ne permet pas l'usage de "*".

Pourtant, cela semble possible à la lecture de cette page :

-https://www.google.be/intl/fr/webmasters/3.html#B3

Mais génère une erreur (confirmant vos propos :wink: ) lorsque l'on utilise :

-http://services.google.com:8882/urlconsole/controller

Bref, existe-t'il une astuce qui me permettrait d'éliminer définitivement ces anciennes pages des index de Google ?

Au plaisir de vous relire,

Serge

Gromka · 26 Octobre 2004

Ces anciennes pages ont de BLs? Essayez une redirection.

srappaille · 26 Octobre 2004

Bonsoir,

Je n'ai malheureusement pas la main sur cette machine pour pouvoir faire ce genre de chose. Et contre toute attente, aucun BL ne pointe sur ces pages.

A vrai dire, en regardant de plus près leur structure, ce sont vraisemblablement d'anciennes pages satellites créées par mes prédécesseurs sur ce dossier (véridique). Google n'offre plus de description mais les liens sont toujours présentés lorsque l'on utilise la fonction "site:". Et cela fait plus d’un an. Ces pages fantômes n’apportent rien, m’encombrent, m’empoisonnent l’existence pour le nouveau référencement, bref… je dératise !

Je pense décaler toutes mes pages dans un répertoire du genre /public/ et utiliser le fichier "robots.txt" pour empêcher (ou supprimer) toute indexation sur les autres répertoires. Et de ce fait, normalement, supprimer les anciennes références. Pensez-vous que cette solution soit la bonne ?

Mais bon, avant d'arriver à de telles extrémités, je me suis laissé à rêvasser d’une alternative.

Après avoir parlé de mon cas auprès de Google.fr, ils m’ont amicalement dirigés vers les pages décrites dans mon précédent message. Le * associé au « disallow » aurait pu offrir une solution élégante. Tant pis.

Merci en tout cas, pour votre réponse.

Serge

Remi L. · 27 Octobre 2004

La première chose à vérifier, c'est que tes pages renvoient bien un 404 propre et net.
Si c'est bien le cas, tu peux faire une demande à Google de les désindexer.

Je ne pense pas que ce soit la bonne solution d'utiliser robots.txt: tu peux effectivement dire au robots "ne vas pas voir la page A" mais si la page A n'existe pas, il ne risque pas de lire quoi que ce soit. Là ton problème n'est pas d'empêcher le robot d'aller une page, il est de désindexer une page.
Une autre solution (surtout en cas de liens sur la page) est de réutiliser la page pour en faire autre chose.