Yahoo robots-nocontent : pour faire ignorer des sections de page

WebRankInfo · 3 Mai 2007

Avec robots-nocontent, Yahoo prend l'initiative et permet aux webmasters de faire ignorer certaines zones de leurs pages. En voici la description !

La classe CSS robots-nocontent avec Yahoo
Jusqu’à présent il n’était pas vraiment possible d’empêcher les moteurs de recherche d’indexer une ou plusieurs parties d’une page web. On pouvait éventuellement se débrouiller pour générer une partie de la page avec du JavaScript, ce langage étant (pour l’instant) ignoré des moteurs. Yahoointroduit aujourd’hui la possibilité d’indiquer à son robot Slurp des zones de pages à ignorer, grâce à une classe CSS intitulée robots-nocontent.

Exemples de code avec class robots-nocontent
Attention il ne s’agit ni d’une balise robots-nocontent, ni d’une balise meta, ni d’un attribut (comme rel=nofollow) mais d’une classe CSS. Pour utiliser cette classe, faites donc comme d’habitude ! Il suffit d’attribuer cette classe à la balise qui englobe le contenu que vous souhaitez voir ignoré, par exemple ici une balise DIV :

<div class="robots-nocontent">Tout ce qui est dans ce div sera ignoré par Yahoo, y compris les balises incluses à l'intérieur comme le paragraphe qui suit.<p>Ce paragraphe sera également ignoré</p></div>

Vous pouvez aussi faire ignorer un ou plusieurs (gros) mots au milieu d’une phrase

par exemple <p>Ici ça va mais <span class="robots-nocontent">là c'est ignoré !</span></p>.

Si vous avez déjà donné un nom de classe à une balise, aucun problème, il suffit de cumuler plusieurs classes en les séparant par un espace :

<div class="publicite robots-nocontent">Ici un bloc destiné à la publicité, qui sera ignoré par Yahoo</div>

Fonctionnement du blocage par robots nocontent
Yahoo précise bien que dans son index, toute la page est référencée, avec tous les mots. Par contre, les mots situés dans les blocs robots-nocontent ne sont pas exploités pour la recherche et ne peuvent pas non plus être utilisés (par Yahoo) pour créer le descriptif de la page dans les résultats de recherche (snippet). C’est donc bien différent de la balise meta robots noindex qui indique aux moteurs qu’ils doivent ignorer l’intégralité de la page.

Selon Yahoo, cette nouvelle fonctionnalité permet aux créateurs de site de mieux mettre en valeur leur contenu, en excluant de l’indexation d’une page tout ce qui n’est pas utile (entêtes, navigation, pied de page, publicité…). Même s’il est indéniable que c’est effectivement un outil utile au webmaster dans certains cas, j’observe qu’une nouvelle fois un moteur de recherche demande aux webmasters de l’aider à faire son travail, à savoir déterminer de façon précise de quoi parle une page (je fais ici référence à l’attribut rel=nofollow qui indique aux moteurs d’ignorer certains liens).

En fait la classe robots-nocontent me fait penser au ciblage par section de Google AdSense qui permet d’indiquer au robot soit des zones d’intérêt (qui sont censées contenir l’information utile de la page), soit des zones à ignorer (comme avec ce robots no content).

A première vue cela revient à dire que les blocs concernés ne sont pas indexés, mais je trouve qu’il faudrait quelques précisions pour savoir par exemple si les liens situés dans ces blocs seront eux aussi ignorés (même si j’avoue que la réponse a été donnée par Priyank Garg dans les commentaires : Yahoo tient compte des liens situés dans ces zones, ce que je ne trouve pas vraiment logique mais bon…).

Une chose est sûre : les webmasters ont désormais une arme supplémentaire pour lutter contre les spammeurs, par exemple dans les blogs, les forums ou les wikis. En effet, il est possible de faire ignorer les commentaires ou les liens qu’ils postent… Evidemment cela va compliquer encore un peu plus les partenariats puisqu’il va falloir vérifier que le partenaire ne fasse pas ignorer la zone de la page où l’on est cité ;-)

Nous allons suivre avec attention comment cette fonctionnalité sera acceptée par la communauté. Les autres moteurs vont-ils suivre Yahoo et supporter eux aussi cette nouvelle classe ?

Pour en savoir plus sur robots-nocontent :

l’annonce officielle par Yahoo : Introducing Robots-Nocontent for Page Sections
la documentation officielle de Yahoo : How do I mark web page content that is extraneous to the main unique content on the page?

Szarah · 3 Mai 2007

La problématique est complètement débroussaillée par cet article (reco). Reste à en discuter.
Pour ma part, je doute que GG accepte que le webmaster obtienne le droit d'occulter une partie du contenu de ses pages.
J'aurais préféré une classe #snipplet

wullon · 3 Mai 2007

Ca peut effectivement être utile dans certains cas.

nalrem · 3 Mai 2007

C'est bien, plus besoin de cloacker les pages

TOMHTML · 3 Mai 2007

wullon a dit:
Ca peut effectivement être utile dans certains cas.

va falloir que tu m'explique... je n'y vois aucun intérêt pour l'instant. Aucun.

yep · 3 Mai 2007

par pitié ne l'utilisez pas !
https://www.webrankinfo.com/actualites/2 ... .htm#c2670
http://s.billard.free.fr/referencement/ ... pertinente

zim3 · 4 Mai 2007

Comme je le dis sur mon blog, c'est un peu une capitulation de la part de yahoo face à la masse d'informations qui arrive continuellement et à la difficulté d'être réellement pertinent, dans le sens ou la technologie seul n'est pas cappable de gérer tout ça.

C'est aussi une réponse face aux difficultés des bots de repérer les éléments récurrents sur chaque page d'un site (menus, footer etc)

wullon · 4 Mai 2007

TOMHTML>moi je ne pensais pas aux éléments redondants, mais plutôt à des éléments qu'on ne veut pas montrer aux robots (pour cause de volatilité du contenu par exemple : une liste de membres en ligne).

Ya déjà du noindex, pourquoi pas un noindex local quoi.

TOMHTML · 5 Mai 2007

C'est plutôt le boulot des moteurs de décréter ce qui est important ou ce qui ne l'est pas

zim3 · 5 Mai 2007

TOMHTML a dit:
C'est plutôt le boulot des moteurs de décréter ce qui est important ou ce qui ne l'est pas

Je suis d'accord, et c'est dans ce sens que google l'entendra probablement!

ChauffeurDeBuzz · 6 Mai 2007

j'en vois une d'utilité ..

.. placer toutes ces pubs dans cette balise

dommage qu'il n'y ai pas de normalisation des balises sur les gros moteurs ..

Monty973 · 6 Mai 2007

Depuis que Yahoo! a annoncé la création de cette balise, je lis plein de webmasters qui s'en plaignent, qui sont contre.

Franchement, je comprends pas. Comme je le dis dans mon dernier billet, on est souvent en train de se plaindre que les moteurs n'indexent pas nos sites comme on le souhaiterais.

Pour une fois que l'un d'entre eux nous donne un peu plus de contrôle sur la qualité d'indexation de notre contenu, il me semble qu'on devrait plutôt s'en féliciter.

Perso, j'espère (même si je n'y crois pas), que Google suivra.

Audiofeeline · 7 Mai 2007

Cette balise est très interressante en effet...
Je pense que Google va suivre, c'est très interressant pour eux, le webmaster défini ce qui est important et ce qui ne l'est pas.
C'est très bien ça ne peut qu'augmenter la vitesse d'indexation si on occulte ce qui est inutile.

zdf · 7 Mai 2007

bonjour,

j'aimerais connaitre précisément quelles sont les methodes qu'a le webmaster pour aider le robot référenceur à cibler le contenu pertinant de la page...

Leonick · 7 Mai 2007

Audiofeeline a dit:
Je pense que Google va suivre, c'est très interressant pour eux, le webmaster défini ce qui est important et ce qui ne l'est pas.

du genre, je fais des liens réciproques avec d'autres sites, mais pour moi ces liens n'ont pas d'intérêt, alors je met une balise autour. Je suis sur que les partenaires apprécieront. :twisted:
Ca va devenir plus subtil que de juste vérifier que l'url existe et qu'il n'y a pas de nofollow :roll:

zdf a dit:
j'aimerais connaitre précisément quelles sont les methodes qu'a le webmaster pour aider le robot référenceur à cibler le contenu pertinant de la page...

pour l'instant, pour gg, uniquement en mettant du contenu ciblé. Et en plus, ça satisfera l'internaute :wink:

Ytz · 7 Mai 2007

Savoir ce qui est un mot pertinent ou pas, ca me semble le plus important, et c'est comme ca que je programme mon robot.
Jusqu'a présent il y avait tout plein de moyen de mettre des mots en valeur, voila qu'on nous propose un moyen d'exclure des mots que l'on juge impertinent.

Or, si ils sont impertinents, cela devrait se voir spontanement. Ils devraient être placés/codés sur la page d'une manière qui suggère intuitivement qu'ils sont inpertinents, et être détecter comme tel.

Un mot inpertinent placé dans une position avantageuse...euh et bien, il devrait pas y etre !

Si le robot fait deja bien son travail, il n'a pas besoin de cette balise.

Par contre, le probleme de sécurité est intéressant (liste de membre...) soulevé par ..je ne sais plus !

La balise pourrait être détourné à de mauvaises fin : propagande caché, contenu illicite...

ytz

Audiofeeline · 7 Mai 2007

Leonick a dit:
du genre, je fais des liens réciproques avec d'autres sites, mais pour moi ces liens n'ont pas d'intérêt, alors je met une balise autour. Je suis sur que les partenaires apprécieront.

Il n'y a aucune raison de faire, comme il n'y avait aucune raison de faire des liens en nofollow pour les partenaires...
Et qui a dit que les liens sortants n'avaient pas d'importance?

Leonick · 7 Mai 2007

Audiofeeline a dit:
Leonick a dit:

du genre, je fais des liens réciproques avec d'autres sites, mais pour moi ces liens n'ont pas d'intérêt, alors je met une balise autour. Je suis sur que les partenaires apprécieront.

Cliquez pour agrandir...

Il n'y a aucune raison de faire, comme il n'y avait aucune raison de faire des liens en nofollow pour les partenaires...
Et qui a dit que les liens sortants n'avaient pas d'importance?

je n'ai pas dit que pour moi ils n'avaient aucune importance, c'était juste pour illustrer les effets "néfastes" de cette possibilité. D'où le :twisted:
donc, sur un annuaire, on verra un beau BL en dur, sauf qu'il sera avec cette nouvelle balise, on donnera donc du contenu à l'annuaire, éventuellement un vrai BL et on n'aura en retour qu'un BL dur/mou :roll:
Ca deviendra de plus en plus chaud les partenariats

Audiofeeline · 7 Mai 2007

Il faut bien choisir ses partenaires...
Quel intérêt pour un annuaire de placer cette balise avant les liens?...
Faut arrêter d'être parano, ceux qui éventuellement auraient ce genre de pratique sont soit idiots soit ce sont de mauvais partenaires...

Leonick · 7 Mai 2007

parce qu'il reste encore beaucoup de webmasters qui croient aux pouvoirs du PR :lol:
et ça fait comme dans l'avare avec harpagon "oh mon cher pr, il n'est point sorti de mon site" :lol: :lol:

Audiofeeline · 7 Mai 2007

Et bien écoute tant mieux s'il y en a qui fonctionnent comme ça, ça permet de faire le tri entre les gens sérieux et les guignols et puis c'est tout.

Leonick · 7 Mai 2007

Perso, ça m'importe peu. Mais quand je vois des posts sur WRI qui demandent comme vérifier automatiquement si leurs liens sont toujours chez leurs "partenaires", d'autres qui viennent dire que le partenaire sans les avertir avait supprimé leur lien, et que je vois des crawls de mes pages partenaires, visiblement cela veut dire que cela a un intérêt énorme pour de nombreux webmasters.

Audiofeeline · 7 Mai 2007

D'où l'intérêt de bien choisir ses partenaires et ne pas faire la course du lien pour le lien...
Pour ma part, sur mon forum musique, j'ai quelques partenaires en provenance de WRI et cerise sur le gateau il sont de la même région que moi, bref ça aide...
Et à l'avenir je suis sur qu'on ira plus loin dans l'échange entre nos site, du moins je l'espère...
C'est vraiment facile d'avoir pleins de partenaires dès qu'on a du PR, le mieux c'est encore de trouver des gens avant d'en avoir, là au moins tu sais que c'est désinterressé...

Sinon pour en revenir à cette balise, ça peut être intéressant sur un forum genre PunBB car en effet dans les résultats des moteurs, on a souvent le menu du haut en description, ça serait un test à faire parcontre il faudra mettre ces lien en dur pourquoi pas dans le footer...

Franchement c'est un outil de plus pour nous, je pense que tout ça est positif, les ingénieurs de chez Yahoo! savent ce qu'ils font!

Leonick · 7 Mai 2007

Audiofeeline a dit:
Franchement c'est un outil de plus pour nous, je pense que tout ça est positif, les ingénieurs de chez Yahoo! savent ce qu'ils font!

plutôt que de faire cela, ils pourraient se servir correctement des code apaches renvoyés et des mels qu'on leur envoie pour supprimer des url.
Avec gg, un url est supprimé en 24-48h, et avec yahoo, au bout de plusieurs mois, l'url existe toujours :cry:
Ca ça serait beaucoup plus bénéfique, aussi bien pour les webmasters que pour leur propre pertinence 8)

nalrem · 7 Mai 2007

D'après les infos underground que je possède, yahoo devrait mettre en place dans les semaine à venir une balise meta "alt_url" qui permettrait de mettre en place une url alternative lorsque c'est robot yahoo qui passe. De cette façon, on pourra optimiser pour de vrai ce qu'on souhaite voir prendre en compte.

Blague à part, cette histoire de robots-nocontent, c'est un peu comme si les moteurs reprennaient à nouveau en compte à 100% les meta keywords.

Mais à bien y réfléchir, avec une telle balise, les webmasters auront tout intérêt à inciter leurs internautes à abandonner yahoo pour passer à google... Marketing ?

Audiofeeline · 7 Mai 2007

Moi je dis qu'il se trame quelque chose chez Yahoo!...

Panoramix · 8 Mai 2007

Parfaitement d'accord avec TOMHTML: l'utilité,(s'il y en a une) est seulement pour Yahoo,qui va s'enlever un peu de travail du dos.
Pour le reste attendons la suite (s'il y en a une...)
Dru

Audiofeeline · 9 Mai 2007

Moi je vois ça plutot comme une collaboration avec les webmasters, c'est une bonne chose, qui connait mieux un site que celui qui l'a fait?

Leonick · 9 Mai 2007

c'est un peu comme les meta "requiredpagerank" et "requiredposition" :lol:
donc entre le contenu affiché pour les internautes mais non pris en charge par les moteurs et celui pris en charge par les moteurs mais non visible par les internautes (même couleur que le fond ou display:none, ou top:-15000px, ...) cela va devenir de plus en plus n'importe quoi.
Soit le contenu a un intérêt pour l'internaute et il doit en avoir pour les moteurs, soit on ne le met pas dans sa page

Audiofeeline · 9 Mai 2007

Vous voyez le mal partout, quel intérêt pour le webmaster d'empêcher l'indexation de son site?
Ce truc est pratique pour par exemple les emplacement publicitaire...

zdf · 9 Mai 2007

En fait, mon problème pour être precis est que :
- j'ai 3 colones sur mes pages (2 petites sur le coté, une plus grande au milieu)
- les colones de chaques cotées comportent des infos diverses : liste des utilisateurs loggés, calendrier, etc, bref des infos qui ne meritent pas vraiment d'etre indexées et qui changent en fonction du contexte
- la colone du milieu seule comporte le contenu pertinant en rapport avec le titre de la page

Malheureusement, lorsque google indexe mon site, le contenu de la colone de gauche est lu en premier et remonte lorsque l'on tombe sur mon site via google. On a donc en resumé de mon site une serie de truc ineptes : l'enumeration des mois de l'année, le contenu du menu du haut, etc.

Audiofeeline · 9 Mai 2007

C'est dans ce genre de cas que c'est intéressant.
Ca évite de faire ses sites pour les moteurs de recherche...

Panoramix · 9 Mai 2007

Dans quel but Audiofeeline?
De les cacher à leurs respectifs moteurs?
The druid

indigene · 5 Janvier 2008

Je trouve très bien cette nouvelle balise car elle permet de structurer la page et au final c'est bien pour l'utilisateur que c'est utile même si ça reste invisible pour lui.

L'exemple du site en 3 colonne est tout à fait pertinent !

Sur cette page de WRI il y a en bas de page des liens vers d'autres posts du forum ou vers des articles connexes. Je vois notamment en bas un lien qui contient le mot "Analytics". Imaginons qu'un internaute cherche des informations sur "Analytics" et qu'il tombe sur cette page parce qu'elle contient ce mot... il repart aussitôt car le contenu ne correspond pas du tout à sa recherche. Mais c'est néanmoins un lien très utile pour le visiteur qui est sur la page car il propose des contenus connexes.

Cette balise permettrait donc de ne pas diluer le contenu, le vrai contenu de la page, avec des mots clés qui se rapportent à d'autres contenus. Très pratique sur un site d'information réalisé en colonnage.

Cette balise pourrait d'ailleurs être intégrée au html. On a déjà ceci :

Code:

<html>
   <head>
   ...
   </head>
   <body>
   ...
   </body>
</html>

qui permet de distinguer le head du corps de la page. Mais ensuite à l'intérieur du corps on vient y coller tout et n'importe quoi sans aucune structuration autre que les règles de typo (titres, fontes, graisses...)

La balise robots-nocontent correspondrait un peu à une structuration du body de cette manière :

Code:

<html>
   <head>
   ...
   </head>
   <body>
      <nocontent>
      ...
      </nocontent>
      <content>
      ... 
      </content>
      <nocontent>
      ...
      </nocontent>
   </body>
</html>

Ca permet d'aller à l'essentiel du contenu et d'être tout à fait pertinent.

francedeveloppement · 6 Juin 2011

Bonjour, Existe-il un équivalent pour Google ?

Pour faire ignorer une section ou un texte de page

Proxiacom · 6 Juin 2011

Bien que plusieurs ne semblent pas approuver, moi je trouve cette idée très pertinente!

De nombreux exemple s'appliquent, dont une phrase que l'on veut inclure dans toutes les pages du site et que l'on ne veut pas qu'il soit considérer dans le contenu principal. On peut s'en tirer avec une image, mais ce n'est nullement optimiser un site Web!

Madrileño · 6 Juin 2011

francedeveloppement a dit:
Existe-il un équivalent pour Google ?

Non.

fredquebec a dit:
De nombreux exemple s'appliquent, dont une phrase que l'on veut inclure dans toutes les pages du site et que l'on ne veut pas qu'il soit considérer dans le contenu principal.

Les moteurs ont évolués quand même et s'améliorent encore.

vincentdezone · 7 Juin 2011

Une bonne hiérarchisation du site devrait suffire pour montrer aux moteurs ce qui est important ou pas. Si la liste d'utilisateurs en ligne (pour reprendre l'exemple du dessus) dépend d'un paragraphe en h4 ou d'un paragraphe sans h, alors le robot doit comprendre qu'elle est bien moins importante que les parties du site avec h1, h2 et h3... De même, la redondance des mots clés dans le title et les textes importants oriente le robot dans son indexation... Donc je suis pas méfiant mais je vois pas l'intérêt si le site est bien foutu.

Doubrovski · 6 Février 2014

Je ne vois pas l'intérêt d'un telle balise. Je préférerais être sûr et certain que les moteurs de recherche distinguent ma navigation de mon contenu, quitte à les aider (html5, microdata)... mais je ne pense pas que tout déclarer dans le code soit une solution d'avenir.

Marie-Aude · 6 Février 2014

Tu as vu la date du dernier post ? Fil remonté par un spammeur...

Doubrovski · 6 Février 2014

oups... !