La classe CSS robots-nocontent avec Yahoo
Par Olivier Duffez, Jeudi 3 mai 2007
Jusqu'à présent il n'était pas vraiment possible d'empêcher les moteurs de recherche d'indexer une ou plusieurs parties d'une page web. On pouvait éventuellement se débrouiller pour générer une partie de la page avec du JavaScript, ce langage étant (pour l'instant) ignoré des moteurs. Yahoo introduit aujourd'hui la possibilité d'indiquer à son robot Slurp des zones de pages à ignorer, grâce à une classe CSS intitulée robots-nocontent.
Exemples de code avec class robots-nocontent
Attention il ne s'agit ni d'une balise robots-nocontent, ni d'une balise meta, ni d'un attribut (comme rel=nofollow) mais d'une classe CSS. Pour utiliser cette classe, faites donc comme d'habitude ! Il suffit d'attribuer cette classe à la balise qui englobe le contenu que vous souhaitez voir ignoré, par exemple ici une balise DIV :
<div class="robots-nocontent">Tout ce qui est dans ce div sera ignoré par Yahoo, y compris les balises incluses à l'intérieur comme le paragraphe qui suit.<p>Ce paragraphe sera également ignoré</p></div>
Vous pouvez aussi faire ignorer un ou plusieurs (gros) mots au milieu d'une phrase :-) par exemple <p>Ici ça va mais <span class="robots-nocontent">là c'est ignoré !</span></p>.
Si vous avez déjà donné un nom de classe à une balise, aucun problème, il suffit de cumuler plusieurs classes en les séparant par un espace :
<div class="publicite robots-nocontent">Ici un bloc destiné à la publicité, qui sera ignoré par Yahoo</div>
Fonctionnement du blocage par robots nocontent
Yahoo précise bien que dans son index, toute la page est référencée, avec tous les mots. Par contre, les mots situés dans les blocs robots-nocontent ne sont pas exploités pour la recherche et ne peuvent pas non plus être utilisés (par Yahoo) pour créer le descriptif de la page dans les résultats de recherche (snippet). C'est donc bien différent de la balise meta robots noindex qui indique aux moteurs qu'ils doivent ignorer l'intégralité de la page.
Selon Yahoo, cette nouvelle fonctionnalité permet aux créateurs de site de mieux mettre en valeur leur contenu, en excluant de l'indexation d'une page tout ce qui n'est pas utile (entêtes, navigation, pied de page, publicité...). Même s'il est indéniable que c'est effectivement un outil utile au webmaster dans certains cas, j'observe qu'une nouvelle fois un moteur de recherche demande aux webmasters de l'aider à faire son travail, à savoir déterminer de façon précise de quoi parle une page (je fais ici référence à l'attribut rel=nofollow qui indique aux moteurs d'ignorer certains liens).
En fait la classe robots-nocontent me fait penser au ciblage par section de Google AdSense qui permet d'indiquer au robot soit des zones d'intérêt (qui sont censées contenir l'information utile de la page), soit des zones à ignorer (comme avec ce robots no content).
A première vue cela revient à dire que les blocs concernés ne sont pas indexés, mais je trouve qu'il faudrait quelques précisions pour savoir par exemple si les liens situés dans ces blocs seront eux aussi ignorés (même si j'avoue que la réponse a été donnée par Priyank Garg dans les commentaires : Yahoo tient compte des liens situés dans ces zones, ce que je ne trouve pas vraiment logique mais bon...).
Une chose est sûre : les webmasters ont désormais une arme supplémentaire pour lutter contre les spammeurs, par exemple dans les blogs, les forums ou les wikis. En effet, il est possible de faire ignorer les commentaires ou les liens qu'ils postent... Evidemment cela va compliquer encore un peu plus les partenariats puisqu'il va falloir vérifier que le partenaire ne fasse pas ignorer la zone de la page où l'on est cité ;-)
Nous allons suivre avec attention comment cette fonctionnalité sera acceptée par la communauté. Les autres moteurs vont-ils suivre Yahoo et supporter eux aussi cette nouvelle classe ?
Pour en savoir plus sur robots-nocontent :
- la discussion dans le forum sur ce nouveau robots-nocontent
- l'annonce officielle par Yahoo : Introducing Robots-Nocontent for Page Sections
- la documentation officielle de Yahoo : How do I mark web page content that is extraneous to the main unique content on the page?
A propos de l'auteur : Olivier Duffez
![]()
Consultant indépendant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC, RueDuCommerce...). Il édite le site WebRankInfo.com qu'il a créé en 2002, devenu la plus grande communauté francophone sur le référencement (+ 200.000 membres et 1,3 million de posts). Il a également créé la société Ranking Metrics, leader des formations emarketing en France (référencement naturel, AdWords, Analytics, réseaux sociaux).
Vous avez aimé cet article ? Partagez-le ! | Vous aimez WebRankInfo ? Suivez-nous ! |
Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.
7 commentaires
Postez un commentaire !
Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.
En postant un commentaire, vous acceptez les CGU du site WebRankInfo.
Formation référencement et webmarketing
Venez chez Ranking Metrics vous former au référencement, à Google Analytics et aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (financement possible par OPCA, DIF...).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation agréé).
Sites de l'annuaire
Hébergement web
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo. Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.
A partir de 1,90 EUR HT/mois.
Catégories des dossiers
- Actualité
- Android
- Autres produits Google
- Brèves
- Conseils référencement
- Débuter en référencement
- Droit et Internet
- e-marketing
- Ecrire pour le web et le référencement
- Gmail
- Google AdSense
- Google AdWords
- Google Analytics
- Google Chrome
- Google Images
- Google Labs
- Google Maps
- Google Mobile
- Google News
- Google Search
- Google Toolbar
- Google Webmaster Tools
- Google+
- Indexation Google
- L'entreprise Google
- Les API de Google
- Livres sur le référencement et les moteurs de recherche
- Outils
- PageRank
- R&D référencement
- Ranking Metrics
- Référencement Bing
- Référencement des images
- Référencement et PHP
- Référencement local
- Référencement Yahoo
- Référencement Yandex
- Réseaux sociaux
- Sitemaps
- Stratégies de liens
- Stratégies de mots-clés
- Techniques de référencement
- Webmastering
- WebRankInfo
- YouTube


3 mai 2007 à 9:56
Je ne pense pas que le javascript soit ignoré par les moteurs. En tout cas certainement pas par Google.
3 mai 2007 à 11:00
Est-ce que tu pourrais être un peu plus explicite ? Donner un exemple ? Merci d'avance pour tous les lecteurs.
3 mai 2007 à 12:13
Ce déploiement n'est-il pas tout simplement fait pour pallier le manque de pertinence d'analyse d'une page ; Yahoo n'arrivant pas à identifier correctement le véritable contenu de la page en supprimant les éléments redondants des pages du type header, menus, footer, ce qui m'étonnerait puisque Yahoo reste un modèle de déploiement technique.
Par ailleurs, la mise en valeur d'un contenu passe par une publication correcte de ce dernier (utilisation et respect strict des recommandations HTML) donc :
- une mise au neutre (div, span) des éléments n'ayant pas une importance sémantique (footer, header, etc.)
- l'utilisation des liens (<link> et pas seulement des ancres <a>) à bon escient, entre autre pour le menu, comme cela avait été conçu au départ
- l'utilisation correcte des balises de hiérarchisation de l'information : déployer le <h1> pour le titre du contenu de la page et non pour un logo, etc.
Enfin, l'implémentation sur nos pages de cet élément en alourdit le poids pour, et seulement pour, un seul moteur de recherche qui va détecter cet élément par l'utilisation d'un masque.
Le déploiement sous forme de classe CSS permettra certes par exemple dans la version en cache de ne proposer à l'internaute que le véritable contenu de la page, mais cette dénaturation (?) de l'utilisation du CSS (par Yahoo pour répondre aux besoins de classement de l'information) n'est-elle pas finalement que la conséquence d'un manque de respect des standards web de notre part (webmasters) ?
Note : beaucoup parlent d'un suivi des liens en JS par les moteurs de recherche ; en se mettant à leur place, il serait bien plus pertinent d'analyser l'ensemble de la page avec des masques détectant tout type d'URL (donc n'importe où dans la page y compris dans le JS), ce qui permettrait de suivre également les ressources référencées par le JS (ce qui est assimilé à l'inteprétation du JS).
3 mai 2007 à 23:12
Ca n'est pas le sujet de l'article mais cela fait quelques temps déjà que Google prend en compte certains liens javascript.
8 mai 2007 à 19:33
Faudra nous en parler si il y a la même technique avec Google parce que je suis interessé !
Merci.
9 mai 2007 à 10:21
En tous cas cela en fait un outil "officiel" de masquage de contenu, ce qui est bienvenu
15 mai 2007 à 22:23
Pour repondre, en vrac.
Javascript :
N'oublions pas que le moteur de recherche collecte le source d'une page...Pour lui , javascript est un contenu comme un autre, sauf que c'est une exception de parsing, un peu comme un <style></style>
message de Nico :
Je ne peux que m'inscrire en faux ave Nico. Porrquoi..je vais vous le dire ;-) [allusion presidentielle]
- Ce qui fait le ranking...c'est la redondance d'un contenu (header, footer...text, mot clef, etc) sur 1 page et globalement sur un site.
- Ce qui fait le bruit (inter-page) c'est cette même redondance de contenu (plus le mot est présent moins il semble pertinent).
- Le ranking : pertinence du doc 1 versu doc 2, c'est globalement qque chose entre trop de bruit et pas assez de présence...
Donc : Ce que cherche Yahoo, c'est tout simplement isoler le sens précis d'un document, en supprimant son encapsulage. Pour info, chez Verticrawl, nous utilisons la balise "<noindex>n'indexe pas cette partie stp</noindex>" depuis 1999...
Car : Si vous consulter un source hors html (full-text), c'est ni plus, ni moins qu'une suite de mots ..Comment retrouver le coeur d'un document, comment enlever ce qui est du bruit ??? Doit-on consider la taille de la police (genre <h1>) ? chaque moteur a sa recette...
Pour info, Gooqle avait lancé, en 1999 (de mémoire), un projet de recherche sur l'extraction du sens d'un document, inter-page. En clair, comment se servir d'un document pour enlever l'habillage et extraire le coeur du sens ? La dotation de recherche etait de (mémoire encore) 50.00 USD...
Interpretation de JS :
Le javascript est un language de programmation client web...pas du texte.. C'est comme si vous demandiez à LPage d'indexer les sources de Windows ? Quel interet ? (si ce n'est de savoir que votre doc contient "document.write('..." ?