Comment faire ignorer des zones de page pour Yahoo (robots-nocontent)
Jusqu'à présent il n'était pas vraiment possible d'empêcher les moteurs de recherche d'indexer une ou plusieurs parties d'une page web. On pouvait éventuellement se débrouiller pour générer une partie de la page avec du JavaScript, ce langage étant (pour l'instant) ignoré des moteurs. Yahoo introduit aujourd'hui la possibilité d'indiquer à son robot Slurp des zones de pages à ignorer, grâce à une classe CSS intitulée robots-nocontent.
Exemples de code
Attention il ne s'agit ni d'une balise robots-nocontent, ni d'une balise meta, ni d'un attribut (comme rel=nofollow) mais d'une classe CSS. Pour utiliser cette classe, faites donc comme d'habitude ! Il suffit d'attribuer cette classe à la balise qui englobe le contenu que vous souhaitez voir ignoré, par exemple ici une balise DIV :
<div class="robots-nocontent">Tout ce qui est dans ce div sera ignoré par Yahoo, y compris les balises incluses à l'intérieur comme le paragraphe qui suit.<p>Ce paragraphe sera également ignoré</p></div>
Vous pouvez aussi faire ignorer un ou plusieurs (gros) mots au milieu d'une phrase :-) par exemple <p>Ici ça va mais <span class="robots-nocontent">là c'est ignoré !</span></p>.
Si vous avez déjà donné un nom de classe à une balise, aucun problème, il suffit de cumuler plusieurs classes en les séparant par un espace :
<div class="publicite robots-nocontent">Ici un bloc destiné à la publicité, qui sera ignoré par Yahoo</div>
Fonctionnement
Yahoo précise bien que dans son index, toute la page est référencée, avec tous les mots. Par contre, les mots situés dans les blocs robots-nocontent ne sont pas exploités pour la recherche et ne peuvent pas non plus être utilisés (par Yahoo) pour créer le descriptif de la page dans les résultats de recherche (snippet). C'est donc bien différent de la balise meta robots noindex qui indique aux moteurs qu'ils doivent ignorer l'intégralité de la page.
Selon Yahoo, cette nouvelle fonctionnalité permet aux créateurs de site de mieux mettre en valeur leur contenu, en excluant de l'indexation d'une page tout ce qui n'est pas utile (entêtes, navigation, pied de page, publicité…). Même s'il est indéniable que c'est effectivement un outil utile au webmaster dans certains cas, j'observe qu'une nouvelle fois un moteur de recherche demande aux webmasters de l'aider à faire son travail, à savoir déterminer de façon précise de quoi parle une page (je fais ici référence à l'attribut rel=nofollow qui indique aux moteurs d'ignorer certains liens).
En fait la classe robots-nocontent me fait penser au ciblage par section de Google AdSense qui permet d'indiquer au robot soit des zones d'intérêt (qui sont censées contenir l'information utile de la page), soit des zones à ignorer (comme avec ce robots no content).
A première vue cela revient à dire que les blocs concernés ne sont pas indexés, mais je trouve qu'il faudrait quelques précisions pour savoir par exemple si les liens situés dans ces blocs seront eux aussi ignorés (même si j'avoue que la réponse a été donnée par Priyank Garg dans les commentaires : Yahoo tient compte des liens situés dans ces zones, ce que je ne trouve pas vraiment logique mais bon…).
Une chose est sûre : les webmasters ont désormais une arme supplémentaire pour lutter contre les spammeurs, par exemple dans les blogs, les forums ou les wikis. En effet, il est possible de faire ignorer les commentaires ou les liens qu'ils postent… Evidemment cela va compliquer encore un peu plus les partenariats puisqu'il va falloir vérifier que le partenaire ne fasse pas ignorer la zone de la page où l'on est cité ;-)
Nous allons suivre avec attention comment cette fonctionnalité sera acceptée par la communauté. Les autres moteurs vont-ils suivre Yahoo et supporter eux aussi cette nouvelle classe ?
Pour en savoir plus sur robots-nocontent :
- la discussion dans le forum sur ce nouveau robots-nocontent
- l'annonce officielle par Yahoo : Introducing Robots-Nocontent for Page Sections
- la documentation officielle de Yahoo : How do I mark web page content that is extraneous to the main unique content on the page?
Olivier Duffez, Jeudi 3 mai 2007
Formation référencement et webmarketing
Vous souhaitez sans doute améliorer votre référencement, avez-vous pensé à suivre une formation spécialisée sur le référencement naturel ? En 2008, plus de 700 entreprises ont assisté à nos différentes sessions, la plupart faisant financer ces journées par la formation professionnelle (OPCA). Orange Labs nous a décerné un taux de satisfaction des participants de 90% (octobre 2008).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans la profession, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, cliquez ici pour consulter le site de Ranking Metrics (organisme de formation agréé).
Lectures recommandées sur ce thème :
- Des informations sur l'algorithme de Yahoo Search fournies par Priyank Garg
- Petit changement pour Slurp (le robot de Yahoo)
- Robots.txt : Yahoo supporte les options avancées
- Les crawlers de Yahoo!
- Mise à jour de l'index de Yahoo (11 octobre 2006)
- Changements dans l'algorithme de Yahoo (sept 2007)
- Réflexions sur le fameux rel=nofollow
- Voilà comment fonctionne réellement rel=nofollow
- Yahoo Slurp et autres robots d'indexation de Yahoo
- Yahoo Audio Search
- L'algorithme de Yahoo Search : des infos de Priyank Garg
- Yahoo respecte-t-il vraiment rel=nofollow ?
- Yahoo!Slurp 68.142.251.14 : un nouveau spider de Yahoo ?
- Yahoo Slurp et mon robots.txt
- Yahoo! Slurp 3.0 le nouveau robot de Yahoo
- yahoo slurp comment faire?
- Comment détecter le robot Yahoo! Slurp
- robots-nocontent : pour faire ignorer des sections de page
- comment renseigner le robot yahoo slurp dans googlestat ?
- Passage du robot Inktomi Slurp mais pas de Yahoo Slurp
- Yahoo Messenger / Yahoo Mail / Yahoo / Solutions
- noindex et nofollow
- Yahoo slurp FR vs US ?
- rel="nofollow ?
- Duplicate content, nofollow et noindex
Consultez la description détaillée des produits ou services de Google suivants : Google Sitemaps, Google Finance, Google Custom Search Engine, Google Answers, Google AdSense
- Analyser le positionnement dans Yahoo
Cet outil vous permet de vérifier si une ou plusieurs page(s) de votre site arrive(nt) dans les premiers résultats de Yahoo, pour certains mots-clés recherchés. - Analyser le positionnement d'un site
AgentWebRanking est un logiciel professionnel qui permet d'analyser le positionnement d'un ou plusieurs sites dans plus de 300 moteurs de recherche dans le monde. Vous pouvez ainsi analyser les performances du référencement pour de nombreux mots-clés.
7 commentaires sur “Comment faire ignorer des zones de page pour Yahoo (robots-nocontent)”
Laisser une réponse
Hébergement web
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo (+ de 3 millions de visites/mois). Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.
A partir de 1,90 EUR HT/mois.
A la une sur WebRankInfo
Formation au référencement
Découvrez le programme de formation au référencement le plus complet : méthodologie d'optimisation du référencement Google, sites dynamiques, stratégies de liens, blogs, formation juridique Internet, Google Analytics, taux de transformation, ROI, etc.
Ce cycle de formation peut être pris en compte par votre budget formation... profitez-en !
Cette formation est assurée notamment par Olivier Duffez, créateur du site WebRankInfo et consultant indépendant en référencement.
Logiciel de pro
Vous cherchez un bon logiciel pour effectuer le suivi du référencement ? Je vous conseille AgentWebRanking, le logiciel leader sur le marché, développé par une entreprise française et vendu dans le monde entier depuis 1998.
En tant que consultant en référencement, je l'utilise pour mes prestations de conseil en référencement professionnel.
Derniers sites inscrits
- Programme TV: Tous vos programmes télé sur Internet
- Meuble House - Meuble, Déco, Linge de maison
- Ressources et actualités culturelles en France
- Matériel Dentaire et produits dentaires pour les pros du dentaire
- Riad Sabah à Fès près de Bab Boujloud
- Lapino - jeu de simulation d'élevage et de course entièrement graphique
- Afriq'Art - l'art africain: Vente de tous les objets d'art d'Afrique
- AMAM - Académie Menneçoise d'arts martiaux
- Vino del Diablo, table à tapas à Ajaccio, restaurant et musique live
- Business Development Center - Tunisie
- Site traitant de la sécurité informatique
- Ordinateurs portables SSD : actu et infos sur les ordi équipés de disques SSD
- Conseil en organisation et en développement commercial
- Gel hydroalcoolique : gel antiseptique pour la désinfection des mains
- Chambre Euro-Méditerranéenne de l'Immobilier



Je ne pense pas que le javascript soit ignoré par les moteurs. En tout cas certainement pas par Google.
Est-ce que tu pourrais être un peu plus explicite ? Donner un exemple ? Merci d’avance pour tous les lecteurs.
Ce déploiement n’est-il pas tout simplement fait pour pallier le manque de pertinence d’analyse d’une page ; Yahoo n’arrivant pas à identifier correctement le véritable contenu de la page en supprimant les éléments redondants des pages du type header, menus, footer, ce qui m’étonnerait puisque Yahoo reste un modèle de déploiement technique.
Par ailleurs, la mise en valeur d’un contenu passe par une publication correcte de ce dernier (utilisation et respect strict des recommandations HTML) donc :
– une mise au neutre (div, span) des éléments n’ayant pas une importance sémantique (footer, header, etc.)
– l’utilisation des liens (<link> et pas seulement des ancres <a>) à bon escient, entre autre pour le menu, comme cela avait été conçu au départ
– l’utilisation correcte des balises de hiérarchisation de l’information : déployer le <h1> pour le titre du contenu de la page et non pour un logo, etc.
Enfin, l’implémentation sur nos pages de cet élément en alourdit le poids pour, et seulement pour, un seul moteur de recherche qui va détecter cet élément par l’utilisation d’un masque.
Le déploiement sous forme de classe CSS permettra certes par exemple dans la version en cache de ne proposer à l’internaute que le véritable contenu de la page, mais cette dénaturation (?) de l’utilisation du CSS (par Yahoo pour répondre aux besoins de classement de l’information) n’est-elle pas finalement que la conséquence d’un manque de respect des standards web de notre part (webmasters) ?
Note : beaucoup parlent d’un suivi des liens en JS par les moteurs de recherche ; en se mettant à leur place, il serait bien plus pertinent d’analyser l’ensemble de la page avec des masques détectant tout type d’URL (donc n’importe où dans la page y compris dans le JS), ce qui permettrait de suivre également les ressources référencées par le JS (ce qui est assimilé à l’inteprétation du JS).
Ca n’est pas le sujet de l’article mais cela fait quelques temps déjà que Google prend en compte certains liens javascript.
Faudra nous en parler si il y a la même technique avec Google parce que je suis interessé !
Merci.
En tous cas cela en fait un outil "officiel" de masquage de contenu, ce qui est bienvenu
Pour repondre, en vrac.
Javascript :
N’oublions pas que le moteur de recherche collecte le source d’une page…Pour lui , javascript est un contenu comme un autre, sauf que c’est une exception de parsing, un peu comme un <style></style>
message de Nico :
Je ne peux que m’inscrire en faux ave Nico. Porrquoi..je vais vous le dire ;-) [allusion presidentielle]
– Ce qui fait le ranking…c’est la redondance d’un contenu (header, footer…text, mot clef, etc) sur 1 page et globalement sur un site.
– Ce qui fait le bruit (inter-page) c’est cette même redondance de contenu (plus le mot est présent moins il semble pertinent).
– Le ranking : pertinence du doc 1 versu doc 2, c’est globalement qque chose entre trop de bruit et pas assez de présence…
Donc : Ce que cherche Yahoo, c’est tout simplement isoler le sens précis d’un document, en supprimant son encapsulage. Pour info, chez Verticrawl, nous utilisons la balise "<noindex>n’indexe pas cette partie stp</noindex>" depuis 1999…
Car : Si vous consulter un source hors html (full-text), c’est ni plus, ni moins qu’une suite de mots ..Comment retrouver le coeur d’un document, comment enlever ce qui est du bruit ??? Doit-on consider la taille de la police (genre <h1>) ? chaque moteur a sa recette…
Pour info, Gooqle avait lancé, en 1999 (de mémoire), un projet de recherche sur l’extraction du sens d’un document, inter-page. En clair, comment se servir d’un document pour enlever l’habillage et extraire le coeur du sens ? La dotation de recherche etait de (mémoire encore) 50.00 USD…
Interpretation de JS :
Le javascript est un language de programmation client web…pas du texte.. C’est comme si vous demandiez à LPage d’indexer les sources de Windows ? Quel interet ? (si ce n’est de savoir que votre doc contient "document.write(’…" ?