Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

HTML5 et référencement : conseils d'optimisation

Le W3C vient de publier une version de travail décrivant la future version du langage HTML : la version 5. Même si on a largement le temps avant qu'elle soit utilisée, voici quelques informations sur ce qui change et surtout l'impact sur le référencement.

Sortie de HTML 5 : le premier document encore au stade de brouillon

Remarque importante : ces listes sont loin d'être exhaustives et seront sans doute complétées par la suite.

Les nouvelles balises de HTML5

Voilà certaines balises qui me semblent nouvelles dans la version 5 de HTML (mais je me trompe peut-être... je me suis basé sur le brouillon qui décrit HTML 5) :

  • section : représente un groupement thématique de contenu sur la page (a priori surtout textuel si j'ai bien compris). Je pense que cette balise n'aura pas d'impact direct dans le référencement, car elle est plutôt neutre comme l'est la balise div. Cela dit il faut nuancer cette remarque car la balise section peut jouer un rôle particulier si on la combine avec d'autres (voir la balise h par exemple). Une section possède généralement un entête défini par la balise header et une fin de section définie par une balise footer.
  • header : entête d'une section située bien entendu au début. Elle peut contenir d'autres balises, y compris des paragraphes (p) ou des balises de titres (h1... h6). La balise header a le même niveau d'importance qu'une balise h1, donc elle sera importante pour le référencement.
  • footer : fin de section, comprenant par exemple le nom de l'auteur, des données de copyright, etc. Cette balise ne me semble pas spécialement importante pour le référencement.
  • Entêtes (header), niveaux de titres et sous-titres (h1... h6) et sections (section) : les sections peuvent démarrer avec n'importe quel niveau de titre, mais le W3C encourage de commencer avec une balise h1. Je constate que le W3C laisse supposer qu'il peut tout à fait y avoir plusieurs balises h1 dans un même document...
  • article : représente un élément de contenu de la page (a priori textuel si j'ai bien compris). C'est par exemple un post de forum ou de blog, un article entier ou un commentaire dans un blog. On peut imbriquer plusieurs balises article, par exemple dans le cas de commentaires d'un blog si quelqu'un commente le commentaire d'un autre. J'imagine que les moteurs en tiendront compte de façon similaire à ce qu'ils font avec la balise p.
  • aside : une partie du document qui n'est que faiblement en relation avec le reste du document
  • nav : une partie du document destinée à la navigation
  • dialog : permet de retranscrire une conversation. On l'utilise en général avec les balises dt (pour donner le nom de la personne qui va parler) et dd (pour indiquer ce que cette personne dit).
  • progress : indique le degré d'avancement d'une tâche
  • meter : indique une valeur scalaire mesurée dont on connait l'intervalle de valeurs possibles, ou bien une valeur fractionnaire
  • figure : représente une zone de contenu de type prose incluant généralement une légende (legend).
  • video : représente une vidéo (ça alors !)
  • audio : représente un son ou un flux audio

Les balises qui disparaissent dans la version 5

  • frame
  • frameset
  • noframes

D'autres balises (pas nouvelles mais pas tellement connues j'ai l'impression...)

  • samp : représente un exemple de texte produit en sortie par un système informatique
  • ins : représente une partie du document qui a été ajoutée à la version initiale du document
  • del : représente une partie du document qui a été supprimée de la version initiale du document
  • kbd : représente une donnée entrée par un utilisateur (en général par le clavier)
  • address : contient des informations de contact concernant la section en cours. On la trouve typiquement dans une balise footer. Cette balise n'est pas nouvelle mais change légèrement de signification.
  • legend : représente la légende de l'élément parent (ça peut être figure)

Optimiser le référencement d'un site en HTML5

C'est bien joli tout ça, mais qu'est-ce que ça va changer pour le référencement ? Difficile à dire, alors voici quelques conjectures qui n'engagent que moi :

  • il va se passer encore pas mal de temps avant que la norme HTML5 soit définitivement définie par le W3C ; tant que ce n'est pas fait, il ne devrait pas y avoir de sites codés en HTML 5
  • les moteurs de recherche vont certainement s'intéresser de près à cette nouvelle norme, puisqu'ils devront être en mesure de comprendre les documents codés en HTML5. J'imagine que dans un premier temps leurs algorithmes ne seront pas encore adaptés aux changements apportés par cette nouvelle version, si bien qu'il leur sera difficile de juger la pertinence de ces documents-là.
  • même quand HTML 5 sera sorti et pris en compte par les moteurs, ils continueront évidemment à indexer les pages en HTML 4
  • de nombreuses balises introduites par HTML5 sont certes très utiles pour le concepteur web mais restent relativement neutres pour les moteurs de recherche. Il s'agit de balises qui ne servent pas à mettre en valeur certaines parties de la page web, mais à indiquer à quoi elles correspondent. Cependant, il est évident que les moteurs vont malgré tout exploiter les nouvelles balises, pour mieux indexer le contenu. Par exemple, il sera plus facile aux moteurs d'extraire des entités nommées (par exemple des lieux, des dates ou des mesures).
  • la gestion des sections (avec entête et pied-de-section) et des articles va permettre plus de liberté dans le codage du contenu textuel, qui reste l'ingrédient principal de l'optimisation du référencement. L'optimisation des différents niveaux de titres et sous-titres va changer, il faudra faire de nouveaux tests...

Et vous qu'en pensez-vous ? N'hésitez pas à donner votre avis dans les commentaires ou dans le forum (discussion HTML5)

Pour en savoir plus :

Cet article vous a-t-il plu ?

Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

18 commentaires

Edonais

Le HTML 4 correspond au XHTML 1
Par conséquence, le HTML 5 c'est en faite XHTML 2

Mais je comprends c'est plutôt déroutant !

Répondre
Olivier Duffez

est-ce vraiment aussi simple ? une source d'infos officielle serait appréciée !

Répondre
ben

Comme le dit justement Fabrice Bonny, <ins> et <del> existent déjà depuis bien longtemps, mais également <samp>.

Je fais des formations HTML si besoin, ça peut être utile pour le référencement  ;)

Répondre
Guillaume

Et euh..; en fait si je comprends bien, ces balises servent essentiellement à la catégorisation de l'information (donc à l'organsiation de son cataloguage). Exactement comme ont été présentés les microformats..

un petit complément d'info à ce suejt (et notamment une comparaison entre els deux serait le bienvenu).. voir un post entier ;-)

Répondre
Crocxx

Le HTML4 n'était pas censé être la dernière version de HTML, et toute les nouvelle version devrait pas être du XHTML? Je c'est plus ou j'ai lut sa, mais je ne vois pas l'avantage de développer deux langages si proche en parallèle. A moins que XHTML soit abandonné.

Répondre
Fabrice Bonny

Tout d'abord, une petite correction concernant ins et del qui ne sont pas de nouvelles balises puisqu'elles datent (c'est le cas de le dire) de HTML 3. Elles sont malheureusement trop peu employées, surtout avec leurs attributs cite, datetime et title qui permettent de dater et commenter les changements d'un texte.

Ceci m'amène d'ailleurs à penser que les changements de version de HTML ne modifient quasiment rien du côté des moteurs dans la mesure où ils ne changent ni les habitudes, ni les outils des développeurs. Quels moteurs prennent en compte abbr, acronym, address, blockquote, cite, dl, dt, dd, dfn, q, etc ? Les moteurs se concentrent, avec raison, sur les quelques balises connues de ceux qui codent ou des outils de ceux qui cliquent. Car la plupart des outils n'intègrent même pas la possibilité de mettre en place les balises citées. Sans parler du fait que 99 % des pages du web n'indiquent même pas dans quelle version du HTML elles sont censées être écrites.

En clair, HTML 3, 4 ou 5, avec ou sans X, peu importe pour Google et ses collègues. Je crois beaucoup plus, à terme, à l'impact des microformats ou des formats dédiés comme RSS, Atom ou RoR. Et par conséquent, à l'arrivée de nouveaux services comme les Maps.

Répondre
Etienne

A voir les membres du "HTML working Group" (http://www.w3.org/2000/09/dbwg/d... il m'étonnerai que les navigateurs où les moteurs de recherche ne tiennent pas compte rapidement de l'évolution de "html 5" : Miscrosoft, aol, apple, opera (13 représesantants !), google, mozilla...
Vu qu'ils travaillent de concert, il me semble à peu près évident que les balises seront utiles pour le référecement et qu'elles seront rapidement intégrées aux navigateurs !

Répondre
aboyeur

Comme chaque nouveauté cela va donner du travail et de nouveaux contrats à tous les acteurs économiques de la bulle internet.
Maintenant il reste à savoir comment vont être interprété les anciens sites si graphiquement la disparition de certaines balises ne vont pas créer de surprise "un nouveau courant artistique le e-cubisme :) ". Pour le référencement il va falloir préparer le dépoussiérage de nos CMS, template...on est pas près de se reposer su nos lauriers.

Répondre
Patrice

La balise <nav> me semble très intéressante. Non pas pour donner de l'importance aux liens internes mais plutôt pour mettre en retrait les barres de navigation d'un site. Il est dit que le contenu prend de plus en plus d'importance. Cette balise <nav> permettra de mieux faire ressortir le contenu de chaque pages d’un site.

Répondre
erno

C'est quoi ces conneries.. on est déjà au XHTML 1.1 !

Répondre
Olivier Duffez

Oui tu as raison Seebz, j'ai corrigé

Répondre
carole heinz

les trois nouvelles balises qui me semblent importantes pour le référencement:

- la balise <nav> car elle concerne directement le netlinking interne d'un site, cela peut permettre de mettre en avant les liens internes.

- la balise <ins>: elle pourrait être utile aux moteurs pour comparer deux versions d'un même document, même si un moteur est évidemment déjà capable de comparer deux versions. cela permettrait de séparer les simples changements des réelles nouveautés de contenu au sein d'une page. peut-être une incidence sur le fonctionnement de "la prime de fraîcheur"?

- la balise <audio>: les grands moteurs de recherches indexent déjà le contenu texte, image et vidéo; cette nouvelle balise pourrait bien présager d'une indexation des sons, et pourquoi pas d'un moteur de recherche de sons (un "GoogleSound" par ex. comme le fait déjà Altavista).

Répondre
Ludo

Le HTML 5 servira d'ici quelques temps, il sera sûrement rapidement pris en charge par les navigateurs. Ce n'est pas un problème à mon sens. Cette nouvelle version de HTML sera déterminante pour un bon référencement.

Répondre
Bilel

il est vrai que les moteurs de recherche vont tarder à prendre en compte ces changement !

Mais, au niveau de l'accessibilité et du web 2.0 il y a des ajouts qui sont bien importants.

Et en ce qui concerne l'optimisation, les webmasters décident son importance. Car si la majorité de ces derniers remettent leurs code à jour (ce qui est stressant pour le contenu statique) les moteurs vont le favoriser ;-)

je venais de mentionner ça, dans une étude qui explique la non-pertinence des résultats sur les recherches des images sur Google. Car en se basant sur quelques statistiques, j'ai bien constaté que la majorité des éditeurs négligent l'attribut "alt" sur la balise <img>. De ce fait, Google ne pourra pas se contenter de cette balise pour indexer les images ;-)

Répondre
Seebz

Petite faute au niveau de "legende : représente la légende de l'élément parent (ça peut être figure)".
Ce serait pas plutot 'legend' ?

Répondre
Yves

HTML 5 ne sert à rien ? Sachant que tous les éditeurs de navigateurs bossent dessus, dès sa version finale, les navigateurs l'auront déjà implémenté en grande partie, tout comme le font WebKit et Opera déjà aujourd'hui.
WebKit a implémenté video, et la bdd SQL client, Opera est déjà munis des WebForms 2 qui font officiellement partie de HTML 5 :)
Ensuite je ne vois pas le rapport de WCAG et ARIA, tu peux être plus explicite ?

Finalement del, ins, samp, kbd, existaient déjà.
Bref que du bonheur.

Répondre
dehen

J'ai lu les spécifications. Il semble que par exemple, la balise "section" soit très importante.
Elle permettra de considerer chaque section comme une petite page inclue dans un fichier.
Ceci est très utile dans l'utilisation des balises de type <hn>, par exemple, qui permettent une hiérarchisation du contenu. La hiérarchisation est, me semble-t-il, un élément essentiel pour les moteurs.

Répondre
TOMHTML

Le HTML5 ne sert pas à grand chose à première vue, surtout tant qu'il n'est pas interprété correctement par les navigateurs. Tout ce qui est indiqué existait déjà avec les WCAG et ARIA.

Répondre