Google a été dur à suivre en 2007, tellement le nombre d'actualités sur ce moteur leader a explosé. Pour tenter d'y voir plus clair, j'ai mis en place sur WebRankInfo une encyclopédie des produits, services et technologies de Google (j'en répertorie 140 à ce jour). En ce qui concerne le référencement, voici donc mon récapitulatif :

Recherche universelle

  • Introduite en mai 2007 sous l'appellation Google Universal Search, la recherche universelle est désormais en place également sur google.fr depuis l'été 2007
  • Il est désormais important de travailler son référencement pour différents types de documents : pages web classiques, images, actualités, contenus géolocalisés, vidéos
  • En plus des fichiers Sitemaps classiques, Google gère désormais les fichiers sitemaps vidéo, ce qui facilite l'indexation des contenus vidéo.

Le Flash

  • Peu de choses ont changé : Google lit toujours le Flash et sait en extraire le texte (pas forcément dans tous les cas), mais cela reste toujours difficile de bien positionner un site en Flash pour la bonne raison qu'il ne contient en général que très peu de pages HTML.
  • Matt Cutts a précisé que Google a remplacé leur technologie propriétaire de crawl des fichiers Flash par le SDK fourni par Adobe.

La syndication de contenu (via les flux RSS/Atom)

  • Syndiquer son contenu est une bonne stratégie pour le référencement, car cela permet d'obtenir des liens
  • Pour éviter les problèmes de contenus dupliqués (par exemple qu'un site qui reprenne votre contenu vous passe devant), il faut demander à ceux qui reprennent votre contenu qu'ils fassent des liens vers vous pour indiquer la source, avec un lien vers la page précise de l'article original (pas de lien vers la page d'accueil)
  • Pour déterminer quel est l'article original, Google se base évidemment sur la chronologie (l'original est souvent crawlé le premier) mais aussi sur le PageRank (l'article original reçoit en général des liens depuis les sites qui le reprennent, ce qui l'aide à avoir un meilleur PageRank).
  • Depuis mi-décembre, Google ne fait plus apparaître les flux RSS/Atom dans ses pages de résultats

Crawl et indexation

  • Google a considérablement amélioré son système de crawl et d'indexation depuis l'été 2007 : il est désormais courant de trouver dans les résultats des pages mises en ligne quelques minutes auparavant
  • Il y a de moins en moins de distinction entre l'index principal de Google et son index supplémentaire. Google a retiré l'indication dans les pages de résultats et il n'est plus possible de savoir si une page fait partie de l'index supplémentaire ou pas.
  • On peut désormais déclarer son fichier sitemap très simplement : une ligne dans le fichier robots.txt

Non-indexation de zones de pages

Les balises meta, les URL

Le PageRank

  • Même s'il est sans doute mis à jour en continu par Google, la seule valeur connue de tout le monde reste celle affichée dans la barre d'outils
  • Cette valeur est très rarement mise à jour, si bien qu'elle n'est absolument pas fiable (les deux dernières mises à jour datent d'avril et octobre 2007)
  • Fin 2007, pour un grand nombre de sites dans le monde, Google a procédé à une diminution arbitraire de la valeur du PageRank affichée dans la barre d'outils. Il s'agissait en général de sites qui avaient vendu ou acheté des liens, ou qui avaient fait des échanges de liens massifs en bas de page. Il semblerait que ces sites n'aient pas été pénalisés en positionnement et donc en trafic (c'est le cas de WebRankInfo dont le trafic a augmenté depuis...).

Netlinking

  • Google a mis fin au phénomène de Google Bombing en ajoutant un nouveau filtre dans son algorithme
  • Google n'accorde aucun avantage particulier à un lien situé sur un site en .edu ou .gov, mais il se trouve qu'en général ces sites possèdent une forte notoriété, ce qui confère un poids important à ces liens (à condition qu'ils n'aient pas l'attribut nofollow)
  • Google ne déprécie pas les liens situés sur les réseaux sociaux (à condition qu'ils n'aient pas l'attribut nofollow, ce qui est finalement assez courant)
  • Matt Cutts reconnaît qu'il ne peut pas garantir à 100% qu'il est impossible de nuire au référencement d'un site concurrent, mais il estime qu'une technique visant à acheter des liens vers un site concurrent (pour le dénoncer ensuite pour achat de lien) est contre-productive car elle aide le concurrent plus qu'autre chose...
  • Un lien avec l'attribut nofollow n'est pas du tout pris en compte par Google : Googlebot ne va pas utiliser ce lien pour crawler la page liée, et ce lien ne va rien transmettre à la page liée (PageRank, TrustRank, etc.).

Egalement...

Ce qui va compter en 2008

  • Il faut absolument avoir mis en place une solide stratégie de netlinking : l'algorithme de Google est de plus en plus sophistiqué sur l'analyse des liens (provenance, nombre, chronologie, format, diversité, etc.).
  • L'utilisation des réseaux sociaux va encore progresser, si bien qu'ils doivent faire partie de la politique de référencement d'un site
  • C'est pour ça qu'avec Ranking Metrics nous avons mis au point un nouveau module dans notre formation qui couvre à la fois les stratégies de netlinking et l'utilisation des réseaux sociaux pour le référencement. Les thématiques abordées par ce nouveau module étant très attendues, il ne reste déjà presque plus de places pour le 5 février à Paris. Décidez-vous vite pour vous inscrire sinon vous allez perdre du temps face à vos concurrents...
  • Google a montré en 2007 qu'il était de plus en plus fort pour distinguer les contenus dupliqués, et je pense que ce sera encore plus flagrant en 2008

N'hésitez pas à me contacter si j'ai oublié certains points qui vous semblent importants, je mettrai à jour mon article avec plaisir.