Comment faire ignorer des zones de page pour Yahoo (robots-nocontent)
Par Olivier Duffez, jeudi 3 mai 2007
Jusqu'à présent il n'était pas vraiment possible d'empêcher les moteurs de recherche d'indexer une ou plusieurs parties d'une page web. On pouvait éventuellement se débrouiller pour générer une partie de la page avec du JavaScript, ce langage étant (pour l'instant) ignoré des moteurs. Yahoo introduit aujourd'hui la possibilité d'indiquer à son robot Slurp des zones de pages à ignorer, grâce à une classe CSS intitulée robots-nocontent.
Exemples de code
Attention il ne s'agit ni d'une balise robots-nocontent, ni d'une balise meta, ni d'un attribut (comme rel=nofollow) mais d'une classe CSS. Pour utiliser cette classe, faites donc comme d'habitude ! Il suffit d'attribuer cette classe à la balise qui englobe le contenu que vous souhaitez voir ignoré, par exemple ici une balise DIV :
<div class="robots-nocontent">Tout ce qui est dans ce div sera ignoré par Yahoo, y compris les balises incluses à l'intérieur comme le paragraphe qui suit.<p>Ce paragraphe sera également ignoré</p></div>
Vous pouvez aussi faire ignorer un ou plusieurs (gros) mots au milieu d'une phrase
par exemple <p>Ici ça va mais <span class="robots-nocontent">là c'est ignoré !</span></p>.
Si vous avez déjà donné un nom de classe à une balise, aucun problème, il suffit de cumuler plusieurs classes en les séparant par un espace :
<div class="publicite robots-nocontent">Ici un bloc destiné à la publicité, qui sera ignoré par Yahoo</div>
Fonctionnement
Yahoo précise bien que dans son index, toute la page est référencée, avec tous les mots. Par contre, les mots situés dans les blocs robots-nocontent ne sont pas exploités pour la recherche et ne peuvent pas non plus être utilisés (par Yahoo) pour créer le descriptif de la page dans les résultats de recherche (snippet). C'est donc bien différent de la balise meta robots noindex qui indique aux moteurs qu'ils doivent ignorer l'intégralité de la page.
Selon Yahoo, cette nouvelle fonctionnalité permet aux créateurs de site de mieux mettre en valeur leur contenu, en excluant de l'indexation d'une page tout ce qui n'est pas utile (entêtes, navigation, pied de page, publicité...). Même s'il est indéniable que c'est effectivement un outil utile au webmaster dans certains cas, j'observe qu'une nouvelle fois un moteur de recherche demande aux webmasters de l'aider à faire son travail, à savoir déterminer de façon précise de quoi parle une page (je fais ici référence à l'attribut rel=nofollow qui indique aux moteurs d'ignorer certains liens).
En fait la classe robots-nocontent me fait penser au ciblage par section de Google AdSense qui permet d'indiquer au robot soit des zones d'intérêt (qui sont censées contenir l'information utile de la page), soit des zones à ignorer (comme avec ce robots no content).
A première vue cela revient à dire que les blocs concernés ne sont pas indexés, mais je trouve qu'il faudrait quelques précisions pour savoir par exemple si les liens situés dans ces blocs seront eux aussi ignorés (même si j'avoue que la réponse a été donnée par Priyank Garg dans les commentaires : Yahoo tient compte des liens situés dans ces zones, ce que je ne trouve pas vraiment logique mais bon...).
Une chose est sûre : les webmasters ont désormais une arme supplémentaire pour lutter contre les spammeurs, par exemple dans les blogs, les forums ou les wikis. En effet, il est possible de faire ignorer les commentaires ou les liens qu'ils postent... Evidemment cela va compliquer encore un peu plus les partenariats puisqu'il va falloir vérifier que le partenaire ne fasse pas ignorer la zone de la page où l'on est cité 
Nous allons suivre avec attention comment cette fonctionnalité sera acceptée par la communauté. Les autres moteurs vont-ils suivre Yahoo et supporter eux aussi cette nouvelle classe ?
Pour en savoir plus sur robots-nocontent :
- la discussion dans le forum sur ce nouveau robots-nocontent
- l'annonce officielle par Yahoo : Introducing Robots-Nocontent for Page Sections
- la documentation officielle de Yahoo : How do I mark web page content that is extraneous to the main unique content on the page?

Ajoutez ce blog à vos favoris Technorati !




Commentaires
1. Le jeudi 3 mai 2007 à 09:56, par JP
2. Le jeudi 3 mai 2007 à 11:00, par Olivier Duffez
3. Le jeudi 3 mai 2007 à 12:13, par Nico
4. Le jeudi 3 mai 2007 à 23:12, par Aurélien
5. Le mardi 8 mai 2007 à 19:33, par Rêveur
6. Le mercredi 9 mai 2007 à 10:21, par Thomas
7. Le mardi 15 mai 2007 à 22:23, par jfl
Ajouter un commentaire
Les commentaires pour ce billet sont fermés.
A lire aussi dans l'actualité WebRankInfo
Yahoo vient d'annoncer que son robot allait désormais gérer les options avancées du fichier robots.txt qui permet aux webmasters d'indiquer quels fichiers ou répertoires doivent être exclus du crawl.
Le robot chargé de crawler le web pour l'indexation dans le moteur de recherche Yahoo était encore rattaché à Inktomi, racheté pourtant par Yahoo il y a plusieurs années. Son nom d'hôte sera désormais crawl.yahoo.net
Vous allez lancer un nouveau site et vous aimeriez être sûr de ne rien oublier dans l'optimisation du référencement ? Alors lisez ces conseils...
Yahoo vient d'annoncer le support d'une nouvelle valeur pour la balise meta robots : "noydir" sert désormais à préciser qu'on ne veut pas que Yahoo utilise (dans les pages de résultats de son moteur de recherche) le titre du site tel qu'il est référencé dans l'annuaire de Yahoo. Explications...
Maintenant que les moteurs se sont accordés pour un protocole commun de fichier SiteMap, ils simplifient la soumission de fichier sitemap en proposant d'utiliser le fichier robots.txt (qui est pourtant historiquement utilisé pour indiquer les parties que l'on ne souhaite pas indexer...).
Je profite de ce début d'année pour faire le point sur un certain nombre de questions sur le référencement Google. L'objectif n'est pas de rentrer dans les détails à chaque fois, mais de rappeler certains événements-clé de 2007 et de donner des éléments de réponses à certaines questions.