Priyank Garg l'a annoncé dans le blog officiel de Yahoo : les caractères spéciaux $ et * sont désormais supportés par Slurp, le robot de Yahoo, dans les directives Disallow du fichier robots.txt.

Dans les directives, le caractère * représente n'importe quelle séquence de caractères, et $ marque la fin d'une URL.

Par exemple si vous avez récemment appliqué la réécriture d'URL à votre forum phpBB, pour éviter que Yahoo crawle les anciennes URL, vous pouvez mettre ces lignes dans votre fichier robots.txt :

User-Agent: Yahoo! Slurp
Disallow: /forum/viewtopic.php*

Cela dit dans le cas de Yahoo, on aurait pu écrire aussi :

User-Agent: Yahoo! Slurp
Disallow: /forum/viewtopic.php

puisque Yahoo Slurp n'indexera pas toutes les URL qui commencent par /forum/viewtopic.php

Yahoo rajoute aussi une directive Allow qui permet comme son nom l'indique de préciser des zones du site ou des URL que le robot peut indexer. A mon avis on ne devrait pas en avoir besoin sauf peut-être dans des cas particuliers.

Rappelons que ces caractères spéciaux ne font pas partie du format initial du fichier robots.txt, mais qu'ils sont déjà pris en compte par Googlebot et MSNbot.

Rappelons enfin que le fichier robots.txt n'est pas prévu pour assurer la sécurité d'un site (il est accessible à tous) mais uniquement pour éviter aux robots de crawler les parties de votre site que vous ne souhaitez pas voir indexées.

On en discute dans le forum : Yahoo et les caractères spéciaux dans le fichier robots.txt