Voir aussi
- Discussions...
- Définitions...
- Larry Page
- Noogler (New Googler)
Études
Articles de WRI
- Redirections 302
- Google Toolbar 3
- Rel="NoFollow"...
- L'effet sandbox
- Foire aux backlinks
- Redirections sauvages
- Détournement de page
- Afficher un flux RSS
- Intégrer un flux RSS
- Le PR est-il mort ?
- Analyse référencement
- Google Data Centers
- L'algo de janvier 2004
- Google Deskbar
- Google Dance oct 2003
- GoogleBot change
- Calculatrice Google
- J'ai de la chance
- Google.fr, Google.com
- GoogleBot détaillé
- Bilan 2002
- Chanson au PR Noel
- Viewer, WebQuotes
- La vie d'une page
- Les labos de Google
- Google API
- Phénomène de société
- L'algorithme parfait
- La Google danse...
Autres articles
- Pénalités de Google
- Ma théorie sandbox
- Le secret des doubles-résultats
- Marketing viral
- Le projet Opquast
- Forum phpBB
- Sessions et langues
- Référencement multilingue
- Google en résumé
- Réécriture d'URL
- URL Rewriting
- URL Rewriting : intro
- Fichier .htaccess
PHP
Le nouvel algorithme de Google...
Par Olivier Duffez, le 13-01-2004
Depuis la Google Dance baptisée Florida en novembre dernier, les changements dans l'algorithme de Google ont été nombreux. Mais sont-ils pour autant évidents à identifier ? Je vous indique quelques pistes de réflexion. Tout ce qui a circulé sur le web à ce sujet n'est pas à prendre à la lettre, c'est le moins que l'on puisse dire. Voici néanmoins ce dont il a été question :
- le filtre basé sur une liste de mots ("commerciaux")
- le filtre de "sur-optimisation"
- mise en place de la lemmatisation (stemming)
- l'algorithme Hilltop
- et bien d'autres théories...
Le filtre basé sur une liste de mots ("commerciaux")
Une des premières rumeurs qui a circulé est celle de la création par Google d'un filtre qui modifierait les résultats dits "classiques". Ce filtre serait appliqué seulement pour certaines requêtes contenant un des mots figurant sur une liste de mots-clés caractérisant des requêtes commerciales, et qui pourrait facilement être défini à partir des mots achetés par les clients des AdWords. L'idée sous-jacente était de penser que Google défavorise spécialement les sites commerciaux afin qu'ils achètent des AdWords. D'une part Google a toujours indiqué que les services Moteur et Publicité sont bien distincts, d'autre part il me semble bien dangereux pour Google de se lancer dans ce genre d'opération...
Le filtre de "sur-optimisation"
Une autre idée a été de penser que Google avait mis en place un filtre détectant les pages sur-optimisées. Cela pourrait par exemple toucher les pages dont l'indice de densité d'un des mots-clés de la requête est trop important (le seuil a pu être abaissé). Cela peut concerner également les pages dont tous les liens entrants (backlinks) contiennent les mêmes termes (et encore plus si ces termes se retrouvent dans le titre, la balise H1 et le reste du texte de la page). Néanmoins, de nombreux contre-exemples ont montré que ceci ne s'appliquait pas toujours, ce qui semble indiquer que ce n'est pas la bonne explication.
Mise en place de la lemmatisation (stemming)
Google a récemment annoncé avoir commencer à introduire la lemmatisation. Cette technique consiste à tronquer automatiquement un mot pour retrouver le mot racine, ce qui permet de fournir à une requête donnée des résultats comprenant des mots de la même racine. Cependant d'une part l'influence du stemming est secondaire par rapport aux autres changements introduits par Google, et d'autre part mes essais n'ont pas été concluants, même avec l'exemple donné par Google. Cette fonctionnalité n'est donc peut-être pas encore en place...
L'algorithme Hilltop
Cet algorithme modifie la façon de mesurer la popularité d'une page sur le web par rapport à l'algorithme désormais classique du PageRank. Les deux changements majeurs sont que la popularité d'une page est mesurée pour une thématique donnée, et que cette mesure dépend du nombre et de l'importance des sites experts qui font un lien vers elle. Cette notion de sites experts rejoint l'analyse déjà ancienne de la répartition du web en "hubs" et en "authorities". L'algorithme Hilltop est en général efficace si des sites experts peuvent être correctement trouvés pour la requête donnée ; sinon, aucun résultat n'est fourni. Il pourrait donc être utilisé pour des requêtes générales. Cela dit, il semble aujourd'hui trop coûteux pour être utilisé en temps réel.
Autres théories
On pourrait également citer les idées suivantes, avancées sans toujours un fondement solide :
- Google avantage les sites affichant des publicités AdSense,
- Google avantage les sites ayant acheté des publicités AdWords,
- Google désavantage les sites commerciaux, repérés par leur inscription dans Yahoo,
- Google avantage les sites présents dans Froogle, le moteur shopping de Google,
- Google désavantage les sites ayant de mauvais voisinages en termes de liens sortants (mais aussi entrants !) vers des sites ne respectant pas les règles de Google,
- Google trace désormais les clics dans les pages de résultats et a intégré ces statistiques dans les classements,
- Google cherche à diversifier les types de pages dans les résultats, pour ne pas toujours afficher en premier les gros sites commerciaux,
Attention à ne pas croire une de ces théories seulement parce que vous l'avez lue dans un article ou un forum : il vaut mieux la vérifier prudemment plutôt que de commencer à détruire les optimisations actuelles de votre site !
Conclusion
Finalement, nous voyons qu'il est bien plus difficile que prévu d'analyser réellement en quoi consiste ce nouvel algorithme. Certains articles nous laissent penser que les choses sont maintenant évidentes, mais sans jamais aucune preuve à l'appui, sans exemples en nombre... Ce qui est certain, c'est que Google ajuste souvent son algorithme (l'accélération des mises à jour du PageRank en est une preuve), parfois en introduisant des changements majeurs, d'autres fois en corrigeant seulement les erreurs générées par ces modifications. Il ne fait pas de doute également que l'algorithme actuel ne repose pas essentiellement sur le PageRank, et que certaines idées décrites dans la littérature doivent refléter une partie de la réalité. Il faut donc s'attacher à les analyser pour évaluer la probabilité qu'elles soient déjà appliquées par Google.
Il reste donc nécessaire, encore plus que jamais, d'analyser finement le comportement de l'algorithme de Google. D'une part, étudier les résultats affichés pour différents types de requêtes (très générales, très spécifiques, dand un domaine commercial, de l'information, etc.). D'autre part, il faut comprendre les spécificités de chaque site, ses contraintes, ses atouts et ses facteurs bloquants, tâche en générale d'autant plus complexe que le site est important.
Publicités
- Hébergement web pro

- Pour un bon référencement, il faut un bon hébergeur.
- Testez Sivit, l'hébergeur choisi par WRI (garantie 30 jours satisfait ou remboursé) à partir de 1,90 EUR HT/mois
- Best seller
