Prise en compte de la mise en page HTML par les moteurs de recherche
Après Microsoft et Google, c'est au tour de Yahoo de faire parler de lui au sujet de l'analyse de la mise en page des sites Internet disséqués par son robot d'indexation. Cet article résume les techniques décrites par ces 3 moteurs de recherche…
On avait d'abord pu consulter l'article Block Level Link Analysis (PDF) publié par les chercheurs de MSN Search (Live Search) et Yahoo, qui expliquait comment leur algorithme pouvait tenter d'analyser le rendu visuel d'une page web afin de la découper en zones d'intérêt (afin de s'intéresser en priorité à la zone de contenu utile).

Comme le rappelle justement William Slawski sur son blog, Google avait de son côté déposé un brevet intitulé Document Segmentation based on Visual Gaps. Déposé le 30 décembre 2004, ce brevet fut publié le 6 juillet 2006. Même s'il est plus particulièrement destiné à Google Maps pour la recherche locale, ce brevet reste intéressant car il décrit une méthode assez originale : Google utilise les espaces vides entre les différents blocs d'une page pour déterminer un modèle visuel de page. Ensuite, ce modèle est utilisé pour segmenter la page afin d'en extraire des informations spécifiques (dans leur exemple : trouver les avis des consommateurs à propos d'un restaurant). Pour détecter les espaces vides (Visual Gaps), Google se base entre autres sur l'analyse des balises de titres (h1… h6) ou les traits horizontaux (hr). Je vous laisse lire le brevet pour connaître les détails…
Yahoo vient d'obtenir le 7 février 2008 un brevet déposé en août 2006, intitulé Techniques for approximating the visual layout of a web page and determining the portion of the page containing the significant content, attribué à Anandsudhakar Kesari.

L'objectif de ces analyses est de déterminer automatiquement la zone de contenu la plus importante de la page, grâce à une analyse de sa mise en page. Une fois cette zone déterminée, le moteur peut effectuer une analyse plus importante de cette zone que sur le reste de la page. Il peut également affecter un poids plus important aux liens situés dans cette zone. C'est pour cela que je conseille depuis pas mal de temps d'intégrer des liens à l'intérieur du contenu (plutôt que dans des menus, des marges ou (pire !) des pieds de page).
Le brevet de Yahoo décrit un système d'évaluation grossière de la mise en page, qui ne nécessite pas tous les traitements (coûteux en calculs) effectués par un navigateur web pour afficher une page. Le brevet décrit également les procédés de recherche de modèles de pages sur un site donné, qui permettent d'obtenir des informations utiles pour l'étude de la mise en page. Par exemple, sur un site de vente en ligne, les pages produits se ressemblent fortement.
Aussi bien pour le brevet de Google que celui de Yahoo n'indiquent pas clairement si les feuilles de styles CSS sont analysées. On a même l'impression en lisant les brevets que ce n'est pas le cas, ce qui peut paraître étonnant : même si c'est bien plus simple à traiter, en ignorant les CSS j'imagine qu'on a forcément une mauvaise appréciation du rendu visuel d'une page web ! Cela dit on peut faire confiance aux têtes bien remplies chez Google et Yahoo…
Olivier Duffez, Samedi 15 mars 2008
Formation référencement et webmarketing
Vous souhaitez sans doute améliorer votre référencement, avez-vous pensé à suivre une formation spécialisée sur le référencement naturel ? En 2008, plus de 700 entreprises ont assisté à nos différentes sessions, la plupart faisant financer ces journées par la formation professionnelle (OPCA). Orange Labs nous a décerné un taux de satisfaction des participants de 90% (octobre 2008).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans la profession, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, cliquez ici pour consulter le site de Ranking Metrics (organisme de formation agréé).
Lectures recommandées sur ce thème :
- Statistiques du web mondial (moteurs, navigateurs, sites web
- Ecart entre la Recherche Web et la Recherche Francophone
- Goggle crawle les feuilles de styles CSS
- Programme de gestion de photos et rendu web
- recherche kit web
- À la recherche d'un site Web
- changement dans la recherche web
- recherche web vs pages france
- Développer un moteur de recherche de sites web
- Disparition soudaine dans recherche web
- Coup de chapeau au N°1 de la recherche sur le web
- Cydral > Moteur de recherche d'images Web
- Google API et recherche web francophone
- différence entre recherche google blog et web
- Annuaire gratuit web et recherche de site thématisés
Consultez la description détaillée des produits ou services de Google suivants : Google TrustRank, Marques de Google, Google Images, Googlebot, Google Music Trends
- Logiciel de référencement AgentWebRanking
AgentWebRanking est un logiciel professionnel qui permet d'analyser le positionnement d'un ou plusieurs sites dans plus de 300 moteurs de recherche dans le monde. Vous pouvez ainsi analyser les performances du référencement pour de nombreux mots-clés.
8 commentaires sur “Prise en compte de la mise en page HTML par les moteurs de recherche”
Laisser une réponse
Hébergement web
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo (+ de 3 millions de visites/mois). Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.
A partir de 1,90 EUR HT/mois.
A la une sur WebRankInfo
Formation au référencement
Découvrez le programme de formation au référencement le plus complet : méthodologie d'optimisation du référencement Google, sites dynamiques, stratégies de liens, blogs, formation juridique Internet, Google Analytics, taux de transformation, ROI, etc.
Ce cycle de formation peut être pris en compte par votre budget formation... profitez-en !
Cette formation est assurée notamment par Olivier Duffez, créateur du site WebRankInfo et consultant indépendant en référencement.
Logiciel de pro
Vous cherchez un bon logiciel pour effectuer le suivi du référencement ? Je vous conseille AgentWebRanking, le logiciel leader sur le marché, développé par une entreprise française et vendu dans le monde entier depuis 1998.
En tant que consultant en référencement, je l'utilise pour mes prestations de conseil en référencement professionnel.
Derniers sites inscrits
- Hotel restaurant Le Pont Neuf à Florac Lozère dans les Gorges du Tarn
- Organisation coordination de tout type d'évènement en Haute Savoie
- Agence immobilière Somacimmo - Somain
- Hôtel de Bordeaux à La rochelle
- Vente en ligne de cactus plantes grasses et tillandsia
- TETRADIS, Distributeur spécialisé solutions interconnexion très haut débit
- Cartes, faire-parts et articles de papeterie à imprimer soi-même
- 17WebStore - Achetez aujourd'hui la technologie de demain
- Location de musique DJ pour trouver chaque soirée
- Santé des chiens et des chats : des vétérinaires répondent à vos questions
- Outils interactifs pour un développement durable facile en entreprises
- Must Animation : Dj animateur, organisation et l'animation évènementielle
- Location de villa et appartement à koh Samui en Thailande
- Le club des amateurs et passionnés des jeux de grille
- Colat Clés le Serrurier - Professionnel de la serrurerie en Guadeloupe



Intéressant, ça privilégiera les sites avec du véritable contenu et non des liens de tout coté.
On imagine mal effectivement, qu’ils ne prennent pas du tout en compte les feuilles de style. Il serait alors assez simple de placer des liens dans la partie la plus riche de la page tout en les faisant apparaître à un endroit moins important.
Très bien, au moins la qualité sera mis en avant !
Donc, le contenu reste le roi !!
J’en suis à me demander si je vais pas supprimer les liens externes de pied de page.
Quand aux liens à l’interieur d’un paragraphe je pense qu’ils sont les meilleurs à condition
qu’ils pointent sur une page pertinente et en rapport direct avec l’ancre.
Je suis toujours surpris sur ce site par les formidables capacités techniques que l’on prête à Google. Je pense pour ma part que la réalité est beaucoup plus terre à terre.
@wilkinson : d’autant plus que c’est de Yahoo qu’il est question dans cet article :p
Sinon, il ne faut pas confondre un brevet et l’algo utilisé. Certains brevets tombe à l’eau, d’autres sont mis en place des plombes après dépôt.
Article intéressant une fois de plus ;)
Quand je fais un nouveau site maintenant, généralement je place le logo en haut du code, puis le fil d’ariane ensuite la balise h1 et après le contenu spécifique de la page.
Je relègue à la fin la navigation et les zones latérales.
En wisiwig on n’a donc pas la même chose que dans le code, mais je pense que ce n’est pas tromper les robots des moteurs non ?
Le logiciel que nous éditons intègre des algorithmes dits de "topologie" de texte. Nous avons un principe de découverte de la zone de texte principale, et un autre orienté blogs texte+commentaire. Il ne faut pas forcément s’imaginer qu’il faille une équipe de 75 personnes pour mettre au point des algorithmes certes complexes, mais avec simplement du bon sens. Il suffit de voir comment sont écrits en mis en page les sites, et l’on se rend vite compte qu’avec une dizaine de modèles, on couvre 99% des pages. Franchement, pour déposer un brevet avec "un <hr> détermine une séparation de texte", il faut avoir une haute opinion de son idée!!
En revanche, on trouve une foule d’information dans le CSS, sans aller lire le CSS, il faut juste être un peu malin… Mais je n’ai pas déposé de brevet pour ça ;)