Explications sur le Crawl Caching Proxy de Google
Par Olivier Duffez, mercredi 26 avril 2006
Google a mis en place un système appelé Crawl Caching Proxy
: voici quelques explications...
Matt Cutts vient d'expliquer dans ce billet ce qu'ils appellent le Crawl Caching Proxy
. Il s'agit d'une optimisation du crawl fait par les multiples robots de Google : recherche web, news, blogs, AdSense... Directement issu de la nouvelle architecture BigDaddy, le principe de ce proxy est de centraliser au même endroit les versions en cache d'une page. Si un des robots souhaite crawler une page, Google vérifie qu'un autre robot ne l'a pas déjà fait peu de temps avant, même si c'est un robot dédié à une autre tâche (news, AdSense, etc.).
On peut lister au moins 2 conséquences :
- Google économise de la bande passante (et en fait économiser aussi aux webmasters)
- il vaut mieux éviter de faire du cloaking en se basant sur le nom d'agent (user agent) car on pourrait avoir des surprises, vu que Google mélange les robots
Par contre tout cela ne va a priori rien changer pour le webmaster, ni en terme d'indexation, ni en terme de positionnement. On discute de ce Crawl Caching Proxy dans le forum...
Mise à jour :
- certains font état de gros problème de mise à jour du cache ou pire : d'indexation depuis que Google utilise ses différents robots pour tout indexer (lire les problèmes de l'after BigDaddy)
- voir aussi les explications de Sébastien Billard qui avait écrit un article sur le sujet hier

Ajoutez ce blog à vos favoris Technorati !




Commentaires
1. Le mercredi 26 avril 2006 à 19:47, par Sebastien Billard
Ajouter un commentaire
Les commentaires pour ce billet sont fermés.
A lire aussi dans l'actualité WebRankInfo
Le robot chargé de crawler le web pour l'indexation dans le moteur de recherche Yahoo était encore rattaché à Inktomi, racheté pourtant par Yahoo il y a plusieurs années. Son nom d'hôte sera désormais crawl.yahoo.net
A lire dans le forum WebRankInfo