Description du cache de Google
Olivier Duffez, Samedi 6 septembre 2008
Pour indexer des millions de pages tous les jours, Google utilise une « armée » de robots d'indexation, appelés GoogleBot (lire l'étude sur GoogleBot pour en savoir plus). A chaque fois qu'un de ces robots visite une page, il la récupère et la stocke sur un des serveurs de Google. Cette version du document est appelée la version cache. On comprend vite qu'avec des milliards de documents Google ait besoin de plus de 10 000 serveurs (et beaucoup de disques durs…).
Mise à jour : cet article date de plusieurs années, attention à le lire pour votre culture web personnelle ! En effet bien des choses ont changé : Google est mis à jour en permanence (crawl, indexation, algorithme, etc.) et les techniques décrites ici ne sont plus forcément applicables à 100%…
A quoi sert le cache de Google ?
Pour la plupart des internautes, cela ne sert à rien ! Ils ne savent d'ailleurs pas que cela existe, ni comment y accéder. Néanmoins cela peut s'avérer utile dans différents cas de figure :
- pour un internaute : une page est inaccessible ou introuvable (erreur 404). Si Google a indexé cette page, il est possible de la consulter en demandant sa version en cache.
- pour un webmaster : la version en cache correspond à ce que GoogleBot a obtenu lorsqu'il est venu l'indexer. Cela permet par exemple de voir de quand date le document (en supposant que cette page est souvent mise à jour) ; cela permet aussi dans le cas de redirections de voir quelle page GoogleBot a vu.
- comme preuve : si vous avez trouvé un site qui vous a plagié mais qui a retiré sa page, vous pouvez éventuellement utiliser la fonction de cache de Google pour le prouver (même si la valeur de cette preuve est toute relative…).
Obtenir la version en cache d'un document
La manière la plus simple d'obtenir la version en cache d'un document est de cliquer sur « Copie cachée » à côté d'un résultat lors d'une recherche sur Google.
Il est possible également d'utiliser un opérateur spécial lors de la recherche : il faut utiliser la syntaxe cache:URL où URL est l'URL du document dont vous cherchez la version en cache.
Si vous avez installé la Google Toolbar, vous pouvez aussi cliquer dans la rubrique « Infos » sur le lien « Copie cachée de ce document ».
Différentes versions en cache d'un même document
La fonction de cache donne parfois des résultats surprenants. Il faut savoir par exemple que la version en cache obtenue à partir de la Google Toolbar n'est pas toujours la même que celle obtenue en cliquant sur le lien « Copie cachée » dans une page de résultats. Ceci tient à un code supplémentaire passé en paramètre et indiqué uniquement sur la page de résultats.
Google dispose également de deux types de robots GoogleBot (lire l'article GoogleBot expliqué en détails pour en savoir plus). La version en cache d'un document peut être différente suivant le type de robot qui l'a indexé.
Par ailleurs, pour revenir sur ce lien « Copie cachée » dans les pages de résultats, on peut remarquer que dans le cas d'une page indexée par le FreshBot (le robot qui indexe le contenu qui change souvent), la date de la dernière version indexée est indiquée. Elle reste en général de 1 à 3 jours.
Dans le même ordre d'idée, il semblerait qu'il existe un troisième type de version en cache. Elle ne concerne que les pages faisant partie des sites d'actualité sélectionnés par Google dans le cadre de sa recherche « Google News ». Dans ce cas, la version en cache ne contient que la partie textuelle identifiée par Google comme étant l'article à indexer.
Enfin, il arrive souvent que Google mette à disposition en cache une vieille version d'une page alors qu'il a déjà proposé une version plus récente. Bien que cette situation soit parfois désagréable pour le webmaster, il ne faut pas s'en inquiéter. Cela peut être dû au fait que 2 serveurs de Google n'ont pas la même version en cache. Le plus efficace pour remédier à ce problème est de parvenir à augmenter le PageRank de la page en question. En effet, le PageRank semble fait partie des critères utilisés par Google pour évaluer à quelle fréquence il doit indexer ce document. Si le PageRank est élevé, la page sera plus souvent indexée ; une page à PageRank 6 mise à jour quotidiennement par le webmaster peut être indexée tous les 1 à 2 jours par Google (la version en cache ne date alors pas de plus d'un ou deux jours).
Formation référencement et webmarketing
Vous souhaitez sans doute améliorer votre référencement, avez-vous pensé à suivre une formation spécialisée sur le référencement naturel ? En 2008, plus de 700 entreprises ont assisté à nos différentes sessions, la plupart faisant financer ces journées par la formation professionnelle (OPCA). Orange Labs nous a décerné un taux de satisfaction des participants de 90% (octobre 2008).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans la profession, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, cliquez ici pour consulter le site de Ranking Metrics (organisme de formation agréé).
Lectures recommandées sur ce thème :
- L'algorithme de Google en résumé (mars 2003)
- Explications sur le Crawl Caching Proxy de Google
- Nouvel article : "Google en résumé"
- Yagoort : Yet Another Google Rank Test
- Le Full Crawl a enfin commencé
- La danse de Googlebot :-) La Google Dance
- Google change de favicon
- Etude de Googlebot, le robot crawler de Google (Fresh Bot, Deep Bot)
- Google commence à indexer les formulaires
- Affichage de la description DMOZ dans Google
- Google joue à cache-cache avec mes sites web
- Cache Google: nouvelle présentation du cache
- Google" france" joue à cache-cache avec mon site
- indexation cache google
- Indexation et cache google disparu
- "texte mis en cache" dans cache google
- cache Google mise à jour sans visite de Googlebot ?
- page en cache google
- page cache de google
- Page en cache dans Google
- page en cache sur google
- Google et page dans la cache
- Contenu google différent de ma page réelle ? Cache ?
- Cache d'une page dans Google
- Page en cache de Google pas complète !!!!!
Consultez la description détaillée des produits ou services de Google suivants : Google Web Accelerator, Googlebot, Google Site Stats, Google Shared Stuff, Google Webmaster Tools
- Calcul d'indice de densité
Cet outil vous permet de calculer l'indice de densité d'un mot-clé d'une page web. Il est calculé à la fois pour la balise TITLE, la balise META description et l'ensemble du texte de la page. - Touch Graph Google Browser
Description du TouchGraph Google Browser (outil externe) : il s'agit d'un outil graphique permettant de visualiser des sites similaires (selon Google). On peut sauter de site en site, et se rendre compte facilement des communautés de sites, ou des nébuleuses de sites traitant du même sujet.
4 commentaires sur “Le cache de Google : description, explications”
Laisser une réponse
Hébergement web
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo (+ de 3 millions de visites/mois). Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.
A partir de 1,90 EUR HT/mois.
A la une sur WebRankInfo
Formation au référencement
Découvrez le programme de formation au référencement le plus complet : méthodologie d'optimisation du référencement Google, sites dynamiques, stratégies de liens, blogs, formation juridique Internet, Google Analytics, taux de transformation, ROI, etc.
Ce cycle de formation peut être pris en compte par votre budget formation... profitez-en !
Cette formation est assurée notamment par Olivier Duffez, créateur du site WebRankInfo et consultant indépendant en référencement.
Logiciel de pro
Vous cherchez un bon logiciel pour effectuer le suivi du référencement ? Je vous conseille AgentWebRanking, le logiciel leader sur le marché, développé par une entreprise française et vendu dans le monde entier depuis 1998.
En tant que consultant en référencement, je l'utilise pour mes prestations de conseil en référencement professionnel.
Derniers sites inscrits
- Concepteur Multimédia et design sonore à Montpellier
- Hotel restaurant Le Pont Neuf à Florac Lozère dans les Gorges du Tarn
- Organisation coordination de tout type d'évènement en Haute Savoie
- Agence immobilière Somacimmo - Somain
- Hôtel de Bordeaux à La rochelle
- Vente en ligne de cactus plantes grasses et tillandsia
- TETRADIS, Distributeur spécialisé solutions interconnexion très haut débit
- Cartes, faire-parts et articles de papeterie à imprimer soi-même
- 17WebStore - Achetez aujourd'hui la technologie de demain
- Location de musique DJ pour trouver chaque soirée
- Santé des chiens et des chats : des vétérinaires répondent à vos questions
- Outils interactifs pour un développement durable facile en entreprises
- Must Animation : Dj animateur, organisation et l'animation évènementielle
- Location de villa et appartement à koh Samui en Thailande
- Le club des amateurs et passionnés des jeux de grille



Bonjour,
j’ai mis un meta noindex sur une page le 25 mai.
Combien de temps cela mettra-t-il pour que la page disparaisse des index de Google?
Merci de votre réponse
il faut au moins attendre que le robot de Google repasse voir la page, ensuite ça devrait être fait rapidement
mais le plus rapide est d’aller dans le compte Google Webmaster Tools pour signaler la page en question
Bonjour,
Est-ce possible d’indexer un site sans qu’il y ait des pages en cache?
J’avais posté une photo et un texte sur une de mes amies (avec l’autorisation de la personne), mais il se fait que cette personne vient de décéder. La famille a demandé de retirer la photo et le texte, ce que j’ai fait. La photo apparait toujours dans dans google image et le texte toujours en cache. Je suppose qu’il faut quelques jours pour que cela disparaisse.
Pour l’avenir, que puis-je faire pour qu’il n’y ait pas de cache de mes pages?
Merci ;)
Oui on peut empêcher l’accès au cache au public en utilisant la balise meta robots noarchive