Description du cache de Google
Par Olivier Duffez, Samedi 6 septembre 2008
Pour indexer des millions de pages tous les jours, Google utilise une "armée" de robots d'indexation, appelés GoogleBot (lire l'étude sur GoogleBot pour en savoir plus). A chaque fois qu'un de ces robots visite une page, il la récupère et la stocke sur un des serveurs de Google. Cette version du document est appelée la version cache. On comprend vite qu'avec des milliards de documents Google ait besoin de plus de 10 000 serveurs (et beaucoup de disques durs...).
Mise à jour : cet article date de plusieurs années, attention à le lire pour votre culture web personnelle ! En effet bien des choses ont changé : Google est mis à jour en permanence (crawl, indexation, algorithme, etc.) et les techniques décrites ici ne sont plus forcément applicables à 100%...
A quoi sert le cache de Google ?
Pour la plupart des internautes, cela ne sert à rien ! Ils ne savent d'ailleurs pas que cela existe, ni comment y accéder. Néanmoins cela peut s'avérer utile dans différents cas de figure :
- pour un internaute : une page est inaccessible ou introuvable (erreur 404). Si Google a indexé cette page, il est possible de la consulter en demandant sa version en cache.
- pour un webmaster : la version en cache correspond à ce que GoogleBot a obtenu lorsqu'il est venu l'indexer. Cela permet par exemple de voir de quand date le document (en supposant que cette page est souvent mise à jour) ; cela permet aussi dans le cas de redirections de voir quelle page GoogleBot a vu.
- comme preuve : si vous avez trouvé un site qui vous a plagié mais qui a retiré sa page, vous pouvez éventuellement utiliser la fonction de cache de Google pour le prouver (même si la valeur de cette preuve est toute relative...).
Obtenir la version en cache d'un document
Pendant longtemps, la manière la plus simple d'obtenir la version en cache d'un document était de cliquer sur "Copie cachée" à côté d'un résultat lors d'une recherche sur Google. Néanmoins, depuis fin septembre 2011, ce lien a été déplacé ! Pour le trouver, il faut afficher l'aperçu du résultat puis cliquer (en haut à droite de la page) sur le lien "En cache".
Il est possible également d'utiliser un opérateur spécial lors de la recherche : il faut utiliser la syntaxe cache:URL où URL est l'URL du document dont vous cherchez la version en cache. Si vous souhaitez en savoir plus, consultez mon guide complet sur les opérateurs de recherche Google, Bing, Yahoo.
Si vous avez installé la Google Toolbar, vous pouvez aussi cliquer dans la rubrique "Infos" sur le lien "Copie cachée de ce document".
Différentes versions en cache d'un même document
La fonction de cache donne parfois des résultats surprenants. Il faut savoir par exemple que la version en cache obtenue à partir de la Google Toolbar n'est pas toujours la même que celle obtenue en cliquant sur le lien "Copie cachée" dans une page de résultats. Ceci tient à un code supplémentaire passé en paramètre et indiqué uniquement sur la page de résultats.
Google dispose également de deux types de robots GoogleBot (lire l'article GoogleBot expliqué en détails pour en savoir plus). La version en cache d'un document peut être différente suivant le type de robot qui l'a indexé.
Par ailleurs, pour revenir sur ce lien "Copie cachée" dans les pages de résultats, on peut remarquer que dans le cas d'une page indexée par le FreshBot (le robot qui indexe le contenu qui change souvent), la date de la dernière version indexée est indiquée. Elle reste en général de 1 à 3 jours.
Dans le même ordre d'idée, il semblerait qu'il existe un troisième type de version en cache. Elle ne concerne que les pages faisant partie des sites d'actualité sélectionnés par Google dans le cadre de sa recherche "Google News". Dans ce cas, la version en cache ne contient que la partie textuelle identifiée par Google comme étant l'article à indexer.
Enfin, il arrive souvent que Google mette à disposition en cache une vieille version d'une page alors qu'il a déjà proposé une version plus récente. Bien que cette situation soit parfois désagréable pour le webmaster, il ne faut pas s'en inquiéter. Cela peut être dû au fait que 2 serveurs de Google n'ont pas la même version en cache. Le plus efficace pour remédier à ce problème est de parvenir à augmenter le PageRank de la page en question. En effet, le PageRank semble fait partie des critères utilisés par Google pour évaluer à quelle fréquence il doit indexer ce document. Si le PageRank est élevé, la page sera plus souvent indexée ; une page à PageRank 6 mise à jour quotidiennement par le webmaster peut être indexée tous les 1 à 2 jours par Google (la version en cache ne date alors pas de plus d'un ou deux jours).
A propos de l'auteur : Olivier Duffez
![]()
Consultant indépendant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC, RueDuCommerce...). Il édite le site WebRankInfo.com qu'il a créé en 2002, devenu la plus grande communauté francophone sur le référencement (+ 200.000 membres et 1,3 million de posts). Il a également créé la société Ranking Metrics, leader des formations emarketing en France (référencement naturel, AdWords, Analytics, réseaux sociaux).
Vous avez aimé cet article ? Partagez-le ! | Vous aimez WebRankInfo ? Suivez-nous ! |
Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.
5 commentaires
Postez un commentaire !
Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.
En postant un commentaire, vous acceptez les CGU du site WebRankInfo.
Cherchez dans tous les dossiers
Cherchez par mots-clés dans ~2000 articles :
Dernières brèves :
- 25 mai : YouTube.com a 8 ans : des chiffres records
- 23 mai : Google rachète Makani Power
- 22 mai : 6 nouveaux types de données pour le marqueur de données structurées
- 16 mai : Jouer au casse-briques dans Google Images (Easter Egg)
- 6 mai : SERP : Google teste l'affichage de résultats sans leur URL
- 13 mars : Les lunettes Google sur des lunettes de vue
- 12 mars : Penguin 4 sera le + important changement d'algo Google de 2013
- 3 mars : Do the Harlem Shake : vidéo de l'easter egg sur YouTube
- 21 février : Bing améliore son outil de suggestion automatique
- 9 février : Eric Schmidt va vendre pour 2,5 milliards de $ d'actions Google
Catégories des dossiers
Consultez les dossiers par thématiques :
Formation référencement et webmarketing
Venez chez Ranking Metrics vous former au référencement, à Google Analytics et aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (financement possible par OPCA, DIF...).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation).
Hébergement web
Hébergement web mutualisé et dédié
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit by Nerim, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo.
A partir de 3€ HT/mois.

29 mai 2009 à 21:14
Bonjour,
j'ai mis un meta noindex sur une page le 25 mai.
Combien de temps cela mettra-t-il pour que la page disparaisse des index de Google?
Merci de votre réponse
30 mai 2009 à 7:44
il faut au moins attendre que le robot de Google repasse voir la page, ensuite ça devrait être fait rapidement
mais le plus rapide est d'aller dans le compte Google Webmaster Tools pour signaler la page en question
4 août 2009 à 11:13
Oui on peut empêcher l'accès au cache au public en utilisant la balise meta robots noarchive
4 août 2009 à 10:28
Bonjour,
Est-ce possible d'indexer un site sans qu'il y ait des pages en cache?
J'avais posté une photo et un texte sur une de mes amies (avec l'autorisation de la personne), mais il se fait que cette personne vient de décéder. La famille a demandé de retirer la photo et le texte, ce que j'ai fait. La photo apparait toujours dans dans google image et le texte toujours en cache. Je suppose qu'il faut quelques jours pour que cela disparaisse.
Pour l'avenir, que puis-je faire pour qu'il n'y ait pas de cache de mes pages?
Merci ;)
1 décembre 2010 à 12:54
Bonjour,
J'ai constaté qu'un de mes sites ne présentait aucune version en cache sur Google. A quoi cela est-il dû ?
Merci