Le crawl caching proxy de Google

WebRankInfo · 26 Avril 2006

Matt Cutts vient d’expliquer dans ce billet ce qu’ils appellent le Crawl Caching Proxy. Il s’agit d’une optimisation du crawl fait par les multiples robots de Google : recherche web, news, blogs, AdSense… Directement issu de la nouvelle architecture BigDaddy, le principe de ce proxy est de centraliser au même endroit les versions en cache d’une page. Si un des robots souhaite crawler une page, Google vérifie qu’un autre robot ne l’a pas déjà fait peu de temps avant, même si c’est un robot dédié à une autre tâche (news, AdSense, etc.).

On peut lister au moins 2 conséquences :

Google économise de la bande passante (et en fait économiser aussi aux webmasters)
il vaut mieux éviter de faire du cloaking en se basant sur le nom d’agent (user agent) car on pourrait avoir des surprises, vu que Google mélange les robots

Par contre tout cela ne va a priori rien changer pour le webmaster, ni en terme d’indexation, ni en terme de positionnement.

Mise à jour :

certains font état de gros problème de mise à jour du cache ou pire : d’indexation depuis que Google utilise ses différents robots pour tout indexer (lire les problèmes de l’after BigDaddy)
voir aussi les explications de Sébastien Billard qui avait écrit un article sur le sujet hier

vanvan · 26 Avril 2006

ben si mon avis vous intéresse je pense que ce truc ne fonctionne pas et est a l'origine de ce que j'ai appelé la daddy baffe !

Je m'explique. Google innove via ce truc et va en profiter pour soulager un peu ses serveurs de bots. Donc, confiant, google calibre ses bots en fonction de ce nouvel outil fabuleux. mediapartner va faire le boulot de googlebot 2...

et d’ailleurs ce dernier a disparue de nos sites, et les bots Google "classiques" crawlent les sites beaucoup beaucoup beaucoup moins. Mais c'est pas grave car "crawl caching proxy" va compenser....
sauf que... sauf que... sauf que...

CA MARCHE PAS DU TOUT

Je m'avance peut être un peu mais tout me laisse a penser que Google c'est bel et bien planté sur ce coup !
Pour étayer mes dires voici quelques points :

- Gros bordel sur les caches depuis la big daddy (voir dans ce forum)
- Gros problème d'indexation de nouvelle page pour beaucoup de site
- Yoyo des pages indexés

Si vous ne me croyez pas faites un test que j'ai moi même fait. Si vous avez le moyen de savoir quelles pages a visité le bot médiapartner depuis un bon mois, regardez le cache des pages qui ont été modifier juste avant.
Exemple : votrepage.htm a été modifier le 2 avril
le médiapartner est passé le 10 avril sur cette page
Regardez le cache dans Google

Si on en crois le fameux "crawl caching proxy" votre cache devrait être a jour. Pour ma part NADA RIEN QUEUDALE ZERO NIB aucune page crawlé par le médiapartner n'a modifier le cache de Google.
Je ne dit pas que c'est la même chose pour tout le monde, mais je ne serait pas surpris que beaucoup soient dans la même situation.

Si ma théorie est exacte Google est dans une situation un peu délicate...

Photoshop user · 26 Avril 2006

vanvan a dit:
Si on en crois le fameux "crawl caching proxy" votre cache devrait être a jour.

Bas non.
cette techno dis pas que le cache 'centralisé' va être maj a chaque fois par tous.
Juste que mediapartners a fait ses calcules sur le cache de GoogleBot

vanvan · 26 Avril 2006

Photoshop user a dit:
vanvan a dit:

Si on en crois le fameux "crawl caching proxy" votre cache devrait être a jour.

Cliquez pour agrandir...

Bas non.
cette techno dis pas que le cache 'centralisé' va être maj a chaque fois par tous.
Juste que mediapartners a fait ses calcules sur le cache de GoogleBot

ben oui je suis bien daccord, mais cela n'enleve rien au fait que depuis cette innovation, beaucoup beaucoup beaucoup de site se retrouve avec des cache datant de 3 mois voir beaucoup plus et de gros probleme d'indexation... Si google pouvait utiliser les caches du mediapartner pour prososer des résultats beaucoup plus pertinant, pourquoi ne le fait il pas ??? ne serais-ce pas parceque justement tout ne fonctionne pas si bien ...

WebRankInfo · 26 Avril 2006

j'ai mis à jour l'article...

legoufred · 26 Avril 2006

le Crawl Caching Proxy de Google, la suite...

Olivier a fait un beau topo en donnant quelques explications sur le Crawl Caching Proxy de Google.

Une réflexion :

Si mon site affiche de l'adsense, suis-je privilégié pour la mise à jour de mes pages ? ... les bots d'adsense étant appelés à chaque nouvelle page crée contenant un bandeau adsense ...

D'après ce que j'ai lu, la réponse est oui

...

Si c'est le cas, yahoo adcenter, msn adcenter peuvent m'oublier je signe à vie (vie = tant que msn search n'aura pas dépassé google en part de marché) pour adsense

JeunZ · 26 Avril 2006

Tout à fait d'accord avec vanvan, depuis Bigdaddy et donc à priori de cette nouvelle technologie de bots mutualisés c'est la memerde.

Enorme yoyo au niveau des pages indexés, caches qui ont du mal, nouvelles pages qui ne s'indexent plus comme avant etc...

EDIT: le point positif quand ça marchera bien, c'est que ceux qui ont google adsense n'auront pas le crawl media partnair + googlebot + d'autre bots, ils n'auront qu'un crawl, donc gros gain de bande passante non négligeable.

cthierry · 26 Avril 2006

Re: le Crawl Caching Proxy de Google, la suite...

legoufred a dit:
Si c'est le cas, yahoo adcenter, msn adcenter peuvent m'oublier je signe à vie (vie = tant que msn search n'aura pas dépassé google en part de marché) pour adsense

signe sur 4 générations alors vue comment c'est partis

-http://www.comscore.com/press/release.asp?press=802

WebRankInfo · 26 Avril 2006

legoufred, j'ai fusionné ton message dans cette discussion, inutile d'en créer d'autres pour l'instant...

legoufred · 26 Avril 2006

oui, je n'avais pas vu cette discussion au moment ou j'ai publié mon post.

JeunZ · 26 Avril 2006

Si mon site affiche de l'adsense, suis-je privilégié pour la mise à jour de mes pages ?

))> Pas vraiment privilégié, tu sera juste privilégié du fait que tu aura à priori moins de crawl, tu économisera de la bande passante.

Mais tu ne sera pas indexé plus rapidement car adsense va mettre ta page en cache sur un serveur proxy de google, mais tant que googlebot ne la demande pas, ta page n'est pas réellement indexé dans le moteur.

Par contre quand il la demandera il la prendra dans son cache, et ne viendra pas chez toi, tu ne verra donc pas googlebot, tu économisera donc de la bande passante ;-)

legoufred · 26 Avril 2006

oui de la bande pasante et du temps aussi ...