Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Les nouveautés de l’algorithme de Google en janvier 2004

Mise à jour : cet article date de plusieurs années, attention à le lire avec le recul nécessaire, pour votre culture web personnelle !
Depuis la Google Dance baptisée Florida en novembre dernier, les changements dans l’algorithme de Google ont été nombreux. Mais sont-ils pour autant évidents à identifier ? Je vous indique quelques pistes de réflexion.

Tout ce qui a circulé sur le web à ce sujet n’est pas à prendre à la lettre, c’est le moins que l’on puisse dire. Voici néanmoins ce dont il a été question :

  • le filtre basé sur une liste de mots (« commerciaux »)
  • le filtre de « sur-optimisation »
  • mise en place de la lemmatisation (stemming)
  • l’algorithme Hilltop
  • et bien d’autres théories…

Le filtre basé sur une liste de mots (« commerciaux »)

Une des premières rumeurs qui a circulé est celle de la création par Google d’un filtre qui modifierait les résultats dits « classiques ». Ce filtre serait appliqué seulement pour certaines requêtes contenant un des mots figurant sur une liste de mots-clés caractérisant des requêtes commerciales, et qui pourrait facilement être défini à partir des mots achetés par les clients des AdWords. L’idée sous-jacente était de penser que Google défavorise spécialement les sites commerciaux afin qu’ils achètent des AdWords. D’une part Google a toujours indiqué que les services Moteur et Publicité sont bien distincts, d’autre part il me semble bien dangereux pour Google de se lancer dans ce genre d’opération…

Le filtre de « sur-optimisation »

Une autre idée a été de penser que Google avait mis en place un filtre détectant les pages sur-optimisées. Cela pourrait par exemple toucher les pages dont l’indice de densité d’un des mots-clés de la requête est trop important (le seuil a pu être abaissé). Cela peut concerner également les pages dont tous les liens entrants (backlinks) contiennent les mêmes termes (et encore plus si ces termes se retrouvent dans le titre, la balise H1 et le reste du texte de la page). Néanmoins, de nombreux contre-exemples ont montré que ceci ne s’appliquait pas toujours, ce qui semble indiquer que ce n’est pas la bonne explication.

Mise en place de la lemmatisation (stemming)

Google a récemment annoncé avoir commencer à introduire la lemmatisation. Cette technique consiste à tronquer automatiquement un mot pour retrouver le mot racine, ce qui permet de fournir à une requête donnée des résultats comprenant des mots de la même racine. Cependant d’une part l’influence du stemming est secondaire par rapport aux autres changements introduits par Google, et d’autre part mes essais n’ont pas été concluants, même avec l’exemple donné par Google. Cette fonctionnalité n’est donc peut-être pas encore en place…

L’algorithme Hilltop

Cet algorithme modifie la façon de mesurer la popularité d’une page sur le web par rapport à l’algorithme désormais classique du PageRank. Les deux changements majeurs sont que la popularité d’une page est mesurée pour une thématique donnée, et que cette mesure dépend du nombre et de l’importance des sites experts qui font un lien vers elle. Cette notion de sites experts rejoint l’analyse déjà ancienne de la répartition du web en « hubs » et en « authorities ». L’algorithme Hilltop est en général efficace si des sites experts peuvent être correctement trouvés pour la requête donnée ; sinon, aucun résultat n’est fourni. Il pourrait donc être utilisé pour des requêtes générales. Cela dit, il semble aujourd’hui trop coûteux pour être utilisé en temps réel.

Autres théories

On pourrait également citer les idées suivantes, avancées sans toujours un fondement solide :

  • Google avantage les sites affichant des publicités AdSense,
  • Google avantage les sites ayant acheté des publicités AdWords,
  • Google désavantage les sites commerciaux, repérés par leur inscription dans Yahoo,
  • Google avantage les sites présents dans Froogle, le moteur shopping de Google,
  • Google désavantage les sites ayant de mauvais voisinages en termes de liens sortants (mais aussi entrants !) vers des sites ne respectant pas les règles de Google,
  • Google trace désormais les clics dans les pages de résultats et a intégré ces statistiques dans les classements,
  • Google cherche à diversifier les types de pages dans les résultats, pour ne pas toujours afficher en premier les gros sites commerciaux,

Attention à ne pas croire une de ces théories seulement parce que vous l’avez lue dans un article ou un forum : il vaut mieux la vérifier prudemment plutôt que de commencer à détruire les optimisations actuelles de votre site !

Conclusion

Finalement, nous voyons qu’il est bien plus difficile que prévu d’analyser réellement en quoi consiste ce nouvel algorithme. Certains articles nous laissent penser que les choses sont maintenant évidentes, mais sans jamais aucune preuve à l’appui, sans exemples en nombre… Ce qui est certain, c’est que Google ajuste souvent son algorithme (l’accélération des mises à jour du PageRank en est une preuve), parfois en introduisant des changements majeurs, d’autres fois en corrigeant seulement les erreurs générées par ces modifications. Il ne fait pas de doute également que l’algorithme actuel ne repose pas essentiellement sur le PageRank, et que certaines idées décrites dans la littérature doivent refléter une partie de la réalité. Il faut donc s’attacher à les analyser pour évaluer la probabilité qu’elles soient déjà appliquées par Google.

Il reste donc nécessaire, encore plus que jamais, d’analyser finement le comportement de l’algorithme de Google. D’une part, étudier les résultats affichés pour différents types de requêtes (très générales, très spécifiques, dans un domaine commercial, de l’information, etc.). D’autre part, il faut comprendre les spécificités de chaque site, ses contraintes, ses atouts et ses facteurs bloquants, tâche en générale d’autant plus complexe que le site est important.

Cet article vous a-t-il plu ?

Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.