Robots.txt : Yahoo supporte les options avancées
Par Olivier Duffez, samedi 4 novembre 2006
Yahoo vient d'annoncer que son robot allait désormais gérer les options avancées du fichier robots.txt qui permet aux webmasters d'indiquer quels fichiers ou répertoires doivent être exclus du crawl.
Priyank Garg l'a annoncé dans le blog officiel de Yahoo : les caractères spéciaux $ et * sont désormais supportés par Slurp, le robot de Yahoo, dans les directives Disallow du fichier robots.txt.
Dans les directives, le caractère * représente n'importe quelle séquence de caractères, et $ marque la fin d'une URL.
Par exemple si vous avez récemment appliqué la réécriture d'URL à votre forum phpBB, pour éviter que Yahoo crawle les anciennes URL, vous pouvez mettre ces lignes dans votre fichier robots.txt :
User-Agent: Yahoo! Slurp Disallow: /forum/viewtopic.php*
Cela dit dans le cas de Yahoo, on aurait pu écrire aussi :
User-Agent: Yahoo! Slurp Disallow: /forum/viewtopic.php
puisque Yahoo Slurp n'indexera pas toutes les URL qui commencent par /forum/viewtopic.php
Yahoo rajoute aussi une directive Allow qui permet comme son nom l'indique de préciser des zones du site ou des URL que le robot peut indexer. A mon avis on ne devrait pas en avoir besoin sauf peut-être dans des cas particuliers.
Rappelons que ces caractères spéciaux ne font pas partie du format initial du fichier robots.txt, mais qu'ils sont déjà pris en compte par Googlebot et MSNbot.
Rappelons enfin que le fichier robots.txt n'est pas prévu pour assurer la sécurité d'un site (il est accessible à tous) mais uniquement pour éviter aux robots de crawler les parties de votre site que vous ne souhaitez pas voir indexées.
On en discute dans le forum : Yahoo et les caractères spéciaux dans le fichier robots.txt
Ajoutez ce blog à vos favoris Technorati !




Commentaires
1. Le mercredi 8 novembre 2006 à 16:32, par bietrix
Ajouter un commentaire
Les commentaires pour ce billet sont fermés.
A lire aussi dans l'actualité WebRankInfo
Le robot chargé de crawler le web pour l'indexation dans le moteur de recherche Yahoo était encore rattaché à Inktomi, racheté pourtant par Yahoo il y a plusieurs années. Son nom d'hôte sera désormais crawl.yahoo.net
Yahoo vient d'annoncer le support d'une nouvelle valeur pour la balise meta robots : "noydir" sert désormais à préciser qu'on ne veut pas que Yahoo utilise (dans les pages de résultats de son moteur de recherche) le titre du site tel qu'il est référencé dans l'annuaire de Yahoo. Explications...
Et de 5 ! (ou plutôt 4...) On a appris via ExaleadGuy il y a quelques jours dans le forum Exalead sur WebRankInfo qu'Exalead supporte désormais le protocole Sitemaps initié par Google, rejoint par Yahoo et Ask (et bientôt MSN/Live mais on attend toujours).
Maintenant que les moteurs se sont accordés pour un protocole commun de fichier SiteMap, ils simplifient la soumission de fichier sitemap en proposant d'utiliser le fichier robots.txt (qui est pourtant historiquement utilisé pour indiquer les parties que l'on ne souhaite pas indexer...).
Priyank Garg, directeur de Yahoo Search, répond aux questions d'Eric Enge à propos de l'importance des liens dans l'algorithme de Yahoo Search, de la politique de Yahoo concernant l'achat et la vente de liens, de la lutte contre le spamdexing, les balises meta robots noindex et nofollow, et enfin de la classe robots-nocontent...