Google et le W3C ?

WRInaute passionné
Je pense que ce que google essaye de dire, c'est qu'il vaut mieux contrôle la validité W3 pour éviter les problèmes!

Quels sont-ils?
Il faut programmer et plus particulièrement un moteur pour avoir une idée. Hormis le crawl, il faut ensuite analyser le contenu.
Il y a de nombreuses opérations d'analyses a faire, dans le head, puis dans la page, élément par élément.
Tout cela se fait essentiellement avec des regles regex, grossomodo pour extraire des parties.
exemple, cette règle permet d'extraire toutes les urls d'une page : <a\s+.*?href\s*=\s*"(.*?)".*?>(.*?)</a>

Sans rentrer dans le détail, tout ce qui commence par <a sera pris en compte comme une url (interne ou externe).
Si vous commencez votre lien par <rel="nofollow" href= comme on trouve sur certains sites, la règle n'est plus bonne et le lien ne sera pas trouvé. Il vaut mieux appliquer une autre règle mais c'est juste a titre d'exemple.

Il y a des centaines des conditions pour analyser le contenu d'une page, que l'on s'appelles Google, Bing ou un autre (...).
L'analyse des <DIV est bien plus complexe, pour établir une hiérarchie de "blocs" et trouver des répétitions afin de connaitre et séparer le contenu de ceux ci, par exemple pour savoir a quoi attribuer une image dans son contexte textuel précis (ou une url).
Si l'image est entourée de texte, on peu attribuer a cette image une valeur supérieure par exemple quand on désire "noter" la "bonne construction" d'une page et la valeur de son contenu, bloc par bloc...

Sans m'étaler de plus, il suffit de l'oubli d'une balise pour casser toute l'analyse et perdre avec toute la valeur de la page ...

Autre exemple, on trouve souvent des métas ou des balises "personnalisées" du genre <meta name="description" value="vous êtes sur ma "super page" , bienvenue !">
Là, l'algorithme d'analyse va se mélanger deux fois les pinceaux :
1) la balise meta description doit avoir comme identifiant de contenu "CONTENT=" et pas dutout "VALUE="
2) Le texte d'accueil contient des mots avec des guillemets autour, ce qu'il ne vaut mieux pas faire dans les balises, car en général, le guillemet est considéré comme un délimiteur. Pour l'algorithme, le contenu de la description sera; "vous êtes sur ma " ... un bout est manquant ...

Un exemple classique par la faute de Adobe, les liens avec un target="new" que Google a du mal a bien analyser et se traduit par une erreur de lien, du type : <a href="http://www.lesite.tld" target="new" class="maclass">. L'ordre du balisage n'étant pas respecté, avec en plus le ciblage de l'url (target) en "new" non reconnu par google fu un temps, ce dernier affichait une erreur de lien.

Bref, il vaut mieux rester conforme au W3c, l'indexation et le bon classement de votre page en sera mieu garanti.
 
WRInaute discret
Parfois, ce genre de petites erreurs causent des problèmes de sécurité, surtout au niveau des injections XSS.
 
WRInaute accro
@longo600

Cette norme pour mes sites web je m'en cale grave, par contre elle me sert pour mes mailings, grace au validateur W3C je peux caler pile poile mes newsletters et elles passent toute nickel sur tous les logiciels de messageries, gmail, yahoo.. et sans forcer :)
 
Discussions similaires
Haut