Vous êtes ici : Dossiers référencement > Actualité

Membre WebRankInfo ?

S'inscrire Aide

Prise en compte de la mise en page HTML par les moteurs de recherche

Après Microsoft et Google, c'est au tour de Yahoo de faire parler de lui au sujet de l'analyse de la mise en page des sites Internet disséqués par son robot d'indexation. Cet article résume les techniques décrites par ces 3 moteurs de recherche…

On avait d'abord pu consulter l'article Block Level Link Analysis (PDF) publié par les chercheurs de MSN Search (Live Search) et Yahoo, qui expliquait comment leur algorithme pouvait tenter d'analyser le rendu visuel d'une page web afin de la découper en zones d'intérêt (afin de s'intéresser en priorité à la zone de contenu utile).

Schéma de l'algorithme Block Level Link Analysis

Comme le rappelle justement William Slawski sur son blog, Google avait de son côté déposé un brevet intitulé Document Segmentation based on Visual Gaps. Déposé le 30 décembre 2004, ce brevet fut publié le 6 juillet 2006. Même s'il est plus particulièrement destiné à Google Maps pour la recherche locale, ce brevet reste intéressant car il décrit une méthode assez originale : Google utilise les espaces vides entre les différents blocs d'une page pour déterminer un modèle visuel de page. Ensuite, ce modèle est utilisé pour segmenter la page afin d'en extraire des informations spécifiques (dans leur exemple : trouver les avis des consommateurs à propos d'un restaurant). Pour détecter les espaces vides (Visual Gaps), Google se base entre autres sur l'analyse des balises de titres (h1… h6) ou les traits horizontaux (hr). Je vous laisse lire le brevet pour connaître les détails…

Yahoo vient d'obtenir le 7 février 2008 un brevet déposé en août 2006, intitulé Techniques for approximating the visual layout of a web page and determining the portion of the page containing the significant content, attribué à Anandsudhakar Kesari.

Image issue du brevet Techniques for approximating the visual layout of a web page and determining the portion of the page containing the significant content

L'objectif de ces analyses est de déterminer automatiquement la zone de contenu la plus importante de la page, grâce à une analyse de sa mise en page. Une fois cette zone déterminée, le moteur peut effectuer une analyse plus importante de cette zone que sur le reste de la page. Il peut également affecter un poids plus important aux liens situés dans cette zone. C'est pour cela que je conseille depuis pas mal de temps d'intégrer des liens à l'intérieur du contenu (plutôt que dans des menus, des marges ou (pire !) des pieds de page).

Le brevet de Yahoo décrit un système d'évaluation grossière de la mise en page, qui ne nécessite pas tous les traitements (coûteux en calculs) effectués par un navigateur web pour afficher une page. Le brevet décrit également les procédés de recherche de modèles de pages sur un site donné, qui permettent d'obtenir des informations utiles pour l'étude de la mise en page. Par exemple, sur un site de vente en ligne, les pages produits se ressemblent fortement.

Aussi bien pour le brevet de Google que celui de Yahoo n'indiquent pas clairement si les feuilles de styles CSS sont analysées. On a même l'impression en lisant les brevets que ce n'est pas le cas, ce qui peut paraître étonnant : même si c'est bien plus simple à traiter, en ignorant les CSS j'imagine qu'on a forcément une mauvaise appréciation du rendu visuel d'une page web ! Cela dit on peut faire confiance aux têtes bien remplies chez Google et Yahoo…

Olivier Duffez, Samedi 15 mars 2008


Formation référencement et webmarketing

Vous souhaitez sans doute améliorer votre référencement, avez-vous pensé à suivre une formation spécialisée sur le référencement naturel ? En 2008, plus de 700 entreprises ont assisté à nos différentes sessions, la plupart faisant financer ces journées par la formation professionnelle (OPCA). Orange Labs nous a décerné un taux de satisfaction des participants de 90% (octobre 2008).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans la profession, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, cliquez ici pour consulter le site de Ranking Metrics (organisme de formation agréé).


Lectures recommandées sur ce thème :



8 commentaires sur “Prise en compte de la mise en page HTML par les moteurs de recherche”

  1. Lunthear dit :

    Intéressant, ça privilégiera les sites avec du véritable contenu et non des liens de tout coté.

  2. Fab le Fou dit :

    On imagine mal effectivement, qu’ils ne prennent pas du tout en compte les feuilles de style. Il serait alors assez simple de placer des liens dans la partie la plus riche de la page tout en les faisant apparaître à un endroit moins important.

  3. voilou dit :

    Très bien, au moins la qualité sera mis en avant !

  4. Kirlian dit :

    Donc, le contenu reste le roi !!
    J’en suis à me demander si je vais pas supprimer les liens externes de pied de page.
    Quand aux liens à l’interieur d’un paragraphe je pense qu’ils sont les meilleurs à condition
    qu’ils pointent sur une page pertinente et en rapport direct avec l’ancre.

  5. wilkinson dit :

    Je suis toujours surpris sur ce site par les formidables capacités techniques que l’on prête à Google. Je pense pour ma part que la réalité est beaucoup plus terre à terre.

  6. Seebz dit :

    @wilkinson : d’autant plus que c’est de Yahoo qu’il est question dans cet article :p
    Sinon, il ne faut pas confondre un brevet et l’algo utilisé. Certains brevets tombe à l’eau, d’autres sont mis en place des plombes après dépôt.

    Article intéressant une fois de plus ;)

  7. luxe campagne dit :

    Quand je fais un nouveau site maintenant, généralement je place le logo en haut du code, puis le fil d’ariane ensuite la balise h1 et après le contenu spécifique de la page.
    Je relègue à la fin la navigation et les zones latérales.
    En wisiwig on n’a donc pas la même chose que dans le code, mais je pense que ce n’est pas tromper les robots des moteurs non ?

  8. marinier dit :

    Le logiciel que nous éditons intègre des algorithmes dits de "topologie" de texte. Nous avons un principe de découverte de la zone de texte principale, et un autre orienté blogs texte+commentaire. Il ne faut pas forcément s’imaginer qu’il faille une équipe de 75 personnes pour mettre au point des algorithmes certes complexes, mais avec simplement du bon sens. Il suffit de voir comment sont écrits en mis en page les sites, et l’on se rend vite compte qu’avec une dizaine de modèles, on couvre 99% des pages. Franchement, pour déposer un brevet avec "un <hr> détermine une séparation de texte", il faut avoir une haute opinion de son idée!!
    En revanche, on trouve une foule d’information dans le CSS, sans aller lire le CSS, il faut juste être un peu malin… Mais je n’ai pas déposé de brevet pour ça ;)

Laisser une réponse

Hébergement web

Sivit

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo (+ de 3 millions de visites/mois). Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.

A partir de 1,90 EUR HT/mois.

A la une sur WebRankInfo

Formation au référencement

Découvrez le programme de formation au référencement le plus complet : méthodologie d'optimisation du référencement Google, sites dynamiques, stratégies de liens, blogs, formation juridique Internet, Google Analytics, taux de transformation, ROI, etc.

Ce cycle de formation peut être pris en compte par votre budget formation... profitez-en !

Cette formation est assurée notamment par Olivier Duffez, créateur du site WebRankInfo et consultant indépendant en référencement.

Détails et inscription

Logiciel de pro

Vous cherchez un bon logiciel pour effectuer le suivi du référencement ? Je vous conseille AgentWebRanking, le logiciel leader sur le marché, développé par une entreprise française et vendu dans le monde entier depuis 1998.
En tant que consultant en référencement, je l'utilise pour mes prestations de conseil en référencement professionnel.

Téléchargement télécharger le logiciel de référencement AgentWebRanking