Prise en compte de la mise en page HTML par les moteurs de recherche
Après Microsoft et Google, c'est au tour de Yahoo de faire parler de lui au sujet de l'analyse de la mise en page des sites Internet disséqués par son robot d'indexation. Cet article résume les techniques décrites par ces 3 moteurs de recherche...
On avait d'abord pu consulter l'article Block Level Link Analysis (PDF) publié par les chercheurs de MSN Search (Live Search) et Yahoo, qui expliquait comment leur algorithme pouvait tenter d'analyser le rendu visuel d'une page web afin de la découper en zones d'intérêt (afin de s'intéresser en priorité à la zone de contenu utile).

Comme le rappelle justement William Slawski sur son blog, Google avait de son côté déposé un brevet intitulé Document Segmentation based on Visual Gaps. Déposé le 30 décembre 2004, ce brevet fut publié le 6 juillet 2006. Même s'il est plus particulièrement destiné à Google Maps pour la recherche locale, ce brevet reste intéressant car il décrit une méthode assez originale : Google utilise les espaces vides entre les différents blocs d'une page pour déterminer un modèle visuel de page. Ensuite, ce modèle est utilisé pour segmenter la page afin d'en extraire des informations spécifiques (dans leur exemple : trouver les avis des consommateurs à propos d'un restaurant). Pour détecter les espaces vides (Visual Gaps), Google se base entre autres sur l'analyse des balises de titres (h1... h6) ou les traits horizontaux (hr). Je vous laisse lire le brevet pour connaître les détails...
Yahoo vient d'obtenir le 7 février 2008 un brevet déposé en août 2006, intitulé Techniques for approximating the visual layout of a web page and determining the portion of the page containing the significant content, attribué à Anandsudhakar Kesari.

L'objectif de ces analyses est de déterminer automatiquement la zone de contenu la plus importante de la page, grâce à une analyse de sa mise en page. Une fois cette zone déterminée, le moteur peut effectuer une analyse plus importante de cette zone que sur le reste de la page. Il peut également affecter un poids plus important aux liens situés dans cette zone. C'est pour cela que je conseille depuis pas mal de temps d'intégrer des liens à l'intérieur du contenu (plutôt que dans des menus, des marges ou (pire !) des pieds de page).
Le brevet de Yahoo décrit un système d'évaluation grossière de la mise en page, qui ne nécessite pas tous les traitements (coûteux en calculs) effectués par un navigateur web pour afficher une page. Le brevet décrit également les procédés de recherche de modèles de pages sur un site donné, qui permettent d'obtenir des informations utiles pour l'étude de la mise en page. Par exemple, sur un site de vente en ligne, les pages produits se ressemblent fortement.
Aussi bien pour le brevet de Google que celui de Yahoo n'indiquent pas clairement si les feuilles de styles CSS sont analysées. On a même l'impression en lisant les brevets que ce n'est pas le cas, ce qui peut paraître étonnant : même si c'est bien plus simple à traiter, en ignorant les CSS j'imagine qu'on a forcément une mauvaise appréciation du rendu visuel d'une page web ! Cela dit on peut faire confiance aux têtes bien remplies chez Google et Yahoo...
Par Olivier Duffez
, Samedi 15 mars 2008
A propos de l'auteur : Olivier Duffez
![]()
Consultant indépendant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC, RueDuCommerce...). Il édite le site WebRankInfo.com qu'il a créé en 2002, devenu la plus grande communauté francophone sur le référencement (+ 200.000 membres et 1,3 million de posts). Il a également créé la société Ranking Metrics, leader des formations emarketing en France (référencement naturel, AdWords, Analytics, réseaux sociaux).
Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.
8 commentaires
Postez un commentaire !
Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.
En postant un commentaire, vous acceptez les CGU du site WebRankInfo.
Formation référencement et webmarketing
Venez chez Ranking Metrics vous former au référencement, à Google Analytics et aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (financement possible par OPCA, DIF...).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation agréé).
Hébergement web
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo. Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.
A partir de 1,90 EUR HT/mois.
Catégories des dossiers
- Actualité
- Android
- Autres produits Google
- Brèves
- Conseils référencement
- Débuter en référencement
- Droit et Internet
- e-marketing
- Ecrire pour le web et le référencement
- Gmail
- Google AdSense
- Google AdWords
- Google Analytics
- Google Chrome
- Google Images
- Google Labs
- Google Maps
- Google Mobile
- Google News
- Google Search
- Google Toolbar
- Google Webmaster Tools
- Google+
- Indexation Google
- L'entreprise Google
- Les API de Google
- Livres sur le référencement et les moteurs de recherche
- Outils
- PageRank
- R&D référencement
- Ranking Metrics
- Référencement Bing
- Référencement des images
- Référencement et PHP
- Référencement local
- Référencement Yahoo
- Référencement Yandex
- Réseaux sociaux
- Sitemaps
- Stratégies de liens
- Stratégies de mots-clés
- Techniques de référencement
- Webmastering
- WebRankInfo
- YouTube



14 mars 2008 à 19:03
Intéressant, ça privilégiera les sites avec du véritable contenu et non des liens de tout coté.
16 mars 2008 à 10:22
On imagine mal effectivement, qu'ils ne prennent pas du tout en compte les feuilles de style. Il serait alors assez simple de placer des liens dans la partie la plus riche de la page tout en les faisant apparaître à un endroit moins important.
16 mars 2008 à 14:34
Très bien, au moins la qualité sera mis en avant !
17 mars 2008 à 13:32
Donc, le contenu reste le roi !!
J'en suis à me demander si je vais pas supprimer les liens externes de pied de page.
Quand aux liens à l'interieur d'un paragraphe je pense qu'ils sont les meilleurs à condition
qu'ils pointent sur une page pertinente et en rapport direct avec l'ancre.
24 mars 2008 à 20:58
Je suis toujours surpris sur ce site par les formidables capacités techniques que l'on prête à Google. Je pense pour ma part que la réalité est beaucoup plus terre à terre.
26 mars 2008 à 18:16
@wilkinson : d'autant plus que c'est de Yahoo qu'il est question dans cet article :p
Sinon, il ne faut pas confondre un brevet et l'algo utilisé. Certains brevets tombe à l'eau, d'autres sont mis en place des plombes après dépôt.
Article intéressant une fois de plus ;)
28 mars 2008 à 10:27
Quand je fais un nouveau site maintenant, généralement je place le logo en haut du code, puis le fil d'ariane ensuite la balise h1 et après le contenu spécifique de la page.
Je relègue à la fin la navigation et les zones latérales.
En wisiwig on n'a donc pas la même chose que dans le code, mais je pense que ce n'est pas tromper les robots des moteurs non ?
28 mars 2008 à 10:33
Le logiciel que nous éditons intègre des algorithmes dits de "topologie" de texte. Nous avons un principe de découverte de la zone de texte principale, et un autre orienté blogs texte+commentaire. Il ne faut pas forcément s'imaginer qu'il faille une équipe de 75 personnes pour mettre au point des algorithmes certes complexes, mais avec simplement du bon sens. Il suffit de voir comment sont écrits en mis en page les sites, et l'on se rend vite compte qu'avec une dizaine de modèles, on couvre 99% des pages. Franchement, pour déposer un brevet avec "un <hr> détermine une séparation de texte", il faut avoir une haute opinion de son idée!!
En revanche, on trouve une foule d'information dans le CSS, sans aller lire le CSS, il faut juste être un peu malin... Mais je n'ai pas déposé de brevet pour ça ;)