Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Prise en compte de la mise en page HTML par les moteurs de recherche

Après Microsoft et Google, c'est au tour de Yahoo de faire parler de lui au sujet de l'analyse de la mise en page des sites Internet disséqués par son robot d'indexation. Cet article résume les techniques décrites par ces 3 moteurs de recherche...

On avait d'abord pu consulter l'article Block Level Link Analysis (PDF) publié par les chercheurs de MSN Search (Live Search) et Yahoo, qui expliquait comment leur algorithme pouvait tenter d'analyser le rendu visuel d'une page web afin de la découper en zones d'intérêt (afin de s'intéresser en priorité à la zone de contenu utile).

Schéma de l'algorithme Block Level Link Analysis

Comme le rappelle justement William Slawski sur son blog, Google avait de son côté déposé un brevet intitulé Document Segmentation based on Visual Gaps. Déposé le 30 décembre 2004, ce brevet fut publié le 6 juillet 2006. Même s'il est plus particulièrement destiné à Google Maps pour la recherche locale, ce brevet reste intéressant car il décrit une méthode assez originale : Google utilise les espaces vides entre les différents blocs d'une page pour déterminer un modèle visuel de page. Ensuite, ce modèle est utilisé pour segmenter la page afin d'en extraire des informations spécifiques (dans leur exemple : trouver les avis des consommateurs à propos d'un restaurant). Pour détecter les espaces vides (Visual Gaps), Google se base entre autres sur l'analyse des balises de titres (h1... h6) ou les traits horizontaux (hr). Je vous laisse lire le brevet pour connaître les détails...

Yahoo vient d'obtenir le 7 février 2008 un brevet déposé en août 2006, intitulé Techniques for approximating the visual layout of a web page and determining the portion of the page containing the significant content, attribué à Anandsudhakar Kesari.

Image issue du brevet Techniques for approximating the visual layout of a web page and determining the portion of the page containing the significant content

L'objectif de ces analyses est de déterminer automatiquement la zone de contenu la plus importante de la page, grâce à une analyse de sa mise en page. Une fois cette zone déterminée, le moteur peut effectuer une analyse plus importante de cette zone que sur le reste de la page. Il peut également affecter un poids plus important aux liens situés dans cette zone. C'est pour cela que je conseille depuis pas mal de temps d'intégrer des liens à l'intérieur du contenu (plutôt que dans des menus, des marges ou (pire !) des pieds de page).

Le brevet de Yahoo décrit un système d'évaluation grossière de la mise en page, qui ne nécessite pas tous les traitements (coûteux en calculs) effectués par un navigateur web pour afficher une page. Le brevet décrit également les procédés de recherche de modèles de pages sur un site donné, qui permettent d'obtenir des informations utiles pour l'étude de la mise en page. Par exemple, sur un site de vente en ligne, les pages produits se ressemblent fortement.

Aussi bien pour le brevet de Google que celui de Yahoo n'indiquent pas clairement si les feuilles de styles CSS sont analysées. On a même l'impression en lisant les brevets que ce n'est pas le cas, ce qui peut paraître étonnant : même si c'est bien plus simple à traiter, en ignorant les CSS j'imagine qu'on a forcément une mauvaise appréciation du rendu visuel d'une page web ! Cela dit on peut faire confiance aux têtes bien remplies chez Google et Yahoo...

Cet article vous a-t-il plu ?

Cliquez pour voter !

8 commentaires

luxe campagne

Quand je fais un nouveau site maintenant, généralement je place le logo en haut du code, puis le fil d'ariane ensuite la balise h1 et après le contenu spécifique de la page.
Je relègue à la fin la navigation et les zones latérales.
En wisiwig on n'a donc pas la même chose que dans le code, mais je pense que ce n'est pas tromper les robots des moteurs non ?

marinier

Le logiciel que nous éditons intègre des algorithmes dits de "topologie" de texte. Nous avons un principe de découverte de la zone de texte principale, et un autre orienté blogs texte+commentaire. Il ne faut pas forcément s'imaginer qu'il faille une équipe de 75 personnes pour mettre au point des algorithmes certes complexes, mais avec simplement du bon sens. Il suffit de voir comment sont écrits en mis en page les sites, et l'on se rend vite compte qu'avec une dizaine de modèles, on couvre 99% des pages. Franchement, pour déposer un brevet avec "un <hr> détermine une séparation de texte", il faut avoir une haute opinion de son idée!!
En revanche, on trouve une foule d'information dans le CSS, sans aller lire le CSS, il faut juste être un peu malin... Mais je n'ai pas déposé de brevet pour ça ;)

Seebz

@wilkinson : d'autant plus que c'est de Yahoo qu'il est question dans cet article :p
Sinon, il ne faut pas confondre un brevet et l'algo utilisé. Certains brevets tombe à l'eau, d'autres sont mis en place des plombes après dépôt.

Article intéressant une fois de plus ;)

wilkinson

Je suis toujours surpris sur ce site par les formidables capacités techniques que l'on prête à Google. Je pense pour ma part que la réalité est beaucoup plus terre à terre.

Kirlian

Donc, le contenu reste le roi !!
J'en suis à me demander si je vais pas supprimer les liens externes de pied de page.
Quand aux liens à l'interieur d'un paragraphe je pense qu'ils sont les meilleurs à condition
qu'ils pointent sur une page pertinente et en rapport direct avec l'ancre.

voilou

Très bien, au moins la qualité sera mis en avant !

Fab le Fou

On imagine mal effectivement, qu'ils ne prennent pas du tout en compte les feuilles de style. Il serait alors assez simple de placer des liens dans la partie la plus riche de la page tout en les faisant apparaître à un endroit moins important.

Lunthear

Intéressant, ça privilégiera les sites avec du véritable contenu et non des liens de tout coté.

Les commentaires sont fermés