Prise en compte de la mise en page HTML par les moteurs de recherche
Par Olivier Duffez, samedi 15 mars 2008
Après Microsoft et Google, c'est au tour de Yahoo de faire parler de lui au sujet de l'analyse de la mise en page des sites Internet disséqués par son robot d'indexation. Cet article résume les techniques décrites par ces 3 moteurs de recherche...
On avait d'abord pu consulter l'article Block Level Link Analysis (PDF) publié par les chercheurs de MSN Search (Live Search) et Yahoo, qui expliquait comment leur algorithme pouvait tenter d'analyser le rendu visuel d'une page web afin de la découper en zones d'intérêt (afin de s'intéresser en priorité à la zone de contenu utile).

Comme le rappelle justement William Slawski sur son blog, Google avait de son côté déposé un brevet intitulé Document Segmentation based on Visual Gaps. Déposé le 30 décembre 2004, ce brevet fut publié le 6 juillet 2006. Même s'il est plus particulièrement destiné à Google Maps pour la recherche locale, ce brevet reste intéressant car il décrit une méthode assez originale : Google utilise les espaces vides entre les différents blocs d'une page pour déterminer un modèle visuel de page. Ensuite, ce modèle est utilisé pour segmenter la page afin d'en extraire des informations spécifiques (dans leur exemple : trouver les avis des consommateurs à propos d'un restaurant). Pour détecter les espaces vides (Visual Gaps), Google se base entre autres sur l'analyse des balises de titres (h1... h6) ou les traits horizontaux (hr). Je vous laisse lire le brevet pour connaître les détails...
Yahoo vient d'obtenir le 7 février 2008 un brevet déposé en août 2006, intitulé Techniques for approximating the visual layout of a web page and determining the portion of the page containing the significant content, attribué à Anandsudhakar Kesari.

L'objectif de ces analyses est de déterminer automatiquement la zone de contenu la plus importante de la page, grâce à une analyse de sa mise en page. Une fois cette zone déterminée, le moteur peut effectuer une analyse plus importante de cette zone que sur le reste de la page. Il peut également affecter un poids plus important aux liens situés dans cette zone. C'est pour cela que je conseille depuis pas mal de temps d'intégrer des liens à l'intérieur du contenu (plutôt que dans des menus, des marges ou (pire !) des pieds de page).
Le brevet de Yahoo décrit un système d'évaluation grossière de la mise en page, qui ne nécessite pas tous les traitements (coûteux en calculs) effectués par un navigateur web pour afficher une page. Le brevet décrit également les procédés de recherche de modèles de pages sur un site donné, qui permettent d'obtenir des informations utiles pour l'étude de la mise en page. Par exemple, sur un site de vente en ligne, les pages produits se ressemblent fortement.
Aussi bien pour le brevet de Google que celui de Yahoo n'indiquent pas clairement si les feuilles de styles CSS sont analysées. On a même l'impression en lisant les brevets que ce n'est pas le cas, ce qui peut paraître étonnant : même si c'est bien plus simple à traiter, en ignorant les CSS j'imagine qu'on a forcément une mauvaise appréciation du rendu visuel d'une page web ! Cela dit on peut faire confiance aux têtes bien remplies chez Google et Yahoo...

Ajoutez ce blog à vos favoris Technorati !




Commentaires
1. Le vendredi 14 mars 2008 à 19:03, par Lunthear
2. Le dimanche 16 mars 2008 à 10:22, par Fab le Fou
3. Le dimanche 16 mars 2008 à 14:34, par voilou
4. Le lundi 17 mars 2008 à 13:32, par Kirlian
5. Le lundi 24 mars 2008 à 20:58, par wilkinson
6. Le mercredi 26 mars 2008 à 18:16, par Seebz
7. Le vendredi 28 mars 2008 à 10:27, par luxe campagne
8. Le vendredi 28 mars 2008 à 10:33, par marinier
Ajouter un commentaire
A lire dans le forum WebRankInfo