Problème pour effacer pages dynamiques avec robots.txt

informatruc · 20 Décembre 2005

Bonjour,

Google dit:

Google a dit:
Pour supprimer les pages générées dynamiquement, utilisez l'entrée robots.txt
suivante :

User-agent: Googlebot
Disallow: /*?

Par contre, quand je vais sur le "système de suppression automatique d'URL", j'ai ce message:

Google a dit:
Les URL ne doivent pas comporter de caractères génériques (« * », par
exemple). La ligne suivante comporte un caractère générique :
DISALLOW /annuaire/*?

Pourtant, Google dit ceci:

Google a dit:
Google a en outre renforcé la souplesse d'utilisation du protocole robots.txt
grâce à la prise en charge des astérisques. Les formats d'interdiction peuvent
inclure le signe « * » pour remplacer toute séquence de caractères et se
terminer par le symbole « $ » pour indiquer la fin d'un nom.

Pensez vous que c'est seulement le système de suppression automatique d'URL qui ne prend pas les caractères génériques? Googlebot vat-il en tenir compte?

Merci.

jeanluc · 20 Décembre 2005

informatruc a dit:
Pensez vous que c'est seulement le système de suppression automatique d'URL qui ne prend pas les caractères génériques? Googlebot vat-il en tenir compte?

Bonjour,

Je n'obtiens pas le même message que toi à travers le lien du système de suppression d'URL, mais je pense que ton explication est la seule possible.

De toute façon, l'emploi des "*" ne fait pas partie du Protocole d'Exclusion des Robots standard. Il faut donc en limiter son emploi aux instructions qui suivent

Code:

User-agent: Googlebot

et Googlebot devrait les comprendre.

Jean-Luc

HawkEye · 20 Décembre 2005

Une autre méthode, probablement plus rapide que la désindexation par robots.txt (qui peut prendre des années dans certains cas), serait d'utiliser une règle .htaccess. redirigeant les pages à indexer vers une 404 ou vers ta page d'accueil en 301...