Les mécanismes du crawl de Google
Olivier Duffez, Mercredi 20 août 2008
Depuis l'été 2007, Google a considérablement amélioré son système de crawl : non seulement le moteur semble arriver à indexer les très nombreuses pages créées chaque jour sur le web, mais il n'est plus rare de voir des pages indexées en quelques minutes à peine ! Voici quelques explications issues d'un brevet de Google qui décrit les différents types de crawlers et leurs rôles respectifs.
Rappel des systèmes de crawl et d'indexation
Il est déjà loin le temps où Google ne mettait à jour son index qu'une fois par mois ! C'était la période mythique de la Google Dance pendant laquelle les résultats oscillaient entre l'ancien et le nouvel index, selon le data center utilisé pour répondre à la requête de l'internaute.
Ensuite, Google a mis en place ce qu'on a appelé l'everflux, c'est-à-dire la mise à jour permanente de son index (et a fortiori des résultats).
Le système de crawl de Google
Découverte d'URL et niveaux de crawl
Google peut découvrir des nouvelles URL de 3 façons :
- soumission directe dans le formulaire adéquat
- crawl et analyse des liens sur les pages
- soumission de listings (RSS, fichiers sitemaps, et autres formes de syndication)
Pour récupérer le contenu de ces nouvelles pages, Google a créé 3 couches de pages associées :
- la couche de base contient la plupart des pages du web. Elles sont crawlées régulièrement, à une fréquence liée à la fréquence de mise à jour du contenu sur ces pages ainsi qu'à leur PageRank.
- la couche quotidienne contient un petit nombre de pages (en comparaison avec la couche de base) qui sont crawlées de façon quotidienne.
- la couche temps réel contient un nombre de pages encore plus restreint, qui sont crawlées en temps réel (avec une fréquence de l'ordre de la minute ou de l'heure).
Apparemment il n'y a pas 3 types de robots mais un seul : Googlebot sait gérer les 3 couches de pages à crawler.
Google calcule pour chaque page un score de crawl, qui lui sert à déterminer à quelle couche elle sera associée. Certaines thématiques sont traitées de façon spécifique, comme par exemple l'actualité.
Gestion des redirections
Quand le crawler détecte une redirection (code HTTP sous la forme 3XX), il réagit différemment selon le type de redirection :
- pour une redirection temporaire (302), le robot crawle immédiatement la page vers laquelle il est redirigé
- pour une redirection permanente (301), le robot transmet l'information à d'autres systèmes et reviendra crawler plus tard la page vers laquelle il est redirigé. On peut imaginer que dans ce cas, un traitement plus complexe est mis en œuvre, afin de transférer tout ce qui était connu à propos de l'ancienne URL vers la nouvelle (avec fusion des informations si l'URL finale était déjà connue).
Schéma du crawl de Google
Voici un schéma fourni dans les annexes du brevet :

Analyse des liens et détection de contenus dupliqués
Quand le crawler récupère une page, son contenu et les liens sont ensuite analysés. Un log des liens trouvés sur la page est envoyé par le crawler à d'autres programmes en charge de ces analyses plus poussées. Parmi ces analyses, on trouve :
- l'analyse du contenu de la page
- le calcul d'une signature à partir de l'URL de la page, pour servir à la détection de contenus dupliqués
- le calcul d'une signature à partir du contenu de la page, pour servir à la détection de contenus dupliqués
- l'analyse du texte des liens et même du texte autour des liens (c'est utilisé pour l'analyse off page)
- la détection de contenu dupliqué au niveau d'une page
- la détection de contenu dupliqué au niveau d'un site
Au sujet de l'analyse du texte entourant le lien, Google donne un exemple dans son brevet : il s'agit d'une page A qui fait un lien texte vers une autre page B contenant une photo du Mont Everest :
<p>Pour voir une photo du Mont Everest, <a href="page-B.html">cliquez ici</a></p>
Même si ce lien n'est pas optimal pour le positionnement de la page B (car l‘anchor text ne contient pas de mot-clé stratégique), Google peut tenir compte du fait qu'il y a des mots-clés juste à côté du lien. Cette information est stockée dans ce que les auteurs du brevet appellent la carte des ancres (Anchor Map). C'est peut-être rassurant mais il est indéniable qu'il vaut mieux avoir un ou plusieurs mots ciblés dans l‘anchor text…
Voici un schéma sur la prise en compte du contexte sémantique des backlinks par Google :

Conclusion
Les informations décrites ici sont issues d'un brevet, il n'est donc pas garanti que le système décrit ici soit en place. Par ailleurs, ce brevet Anchor tag indexing in a web crawler system est très vieux (il a été déposé en juillet 2003 et accepté fin 2007) et Google a sans doute adapté son système depuis…
Pour en savoir plus au sujet de ce brevet :
- auteurs : Huican Zhu, Jeffrey Dean, Sanjay Ghemawat, Bwolen Po-Jen Yang, and Anurag Acharya
- attribué à Google sous le numéro 7,308,643
- déposé le 3 juillet 2003 et attribué le 11 décembre 2007
- les détails : sur le site uspto.gov ou dans l'excellente analyse de Bill Slawski.
On discute du fonctionnement du crawl de Google dans le forum WebRankInfo.
Formation référencement et webmarketing
Vous souhaitez sans doute améliorer votre référencement, avez-vous pensé à suivre une formation spécialisée sur le référencement naturel ? En 2008, plus de 700 entreprises ont assisté à nos différentes sessions, la plupart faisant financer ces journées par la formation professionnelle (OPCA). Orange Labs nous a décerné un taux de satisfaction des participants de 90% (octobre 2008).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans la profession, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, cliquez ici pour consulter le site de Ranking Metrics (organisme de formation agréé).
Lectures recommandées sur ce thème :
- google crawl indexation nouveaux domaines
- Google ne crawl que mon index.
- indexation sur google.frfrancais mais pas google.fr France !
- Data-centers : Google France / Google français
- Google et double crawl
- crawl google image
- X-Google-Crawl-Date
- Google ne crawl plus beaucoup !
- Crawl de google aujourd'hui
- POSTDATA de google crawl Australia
- [google] plus de crawl de mon site
- Crawl de Google erreur 404
- Le crawl caching proxy de Google
- Comment Google Crawl t'il ???
- Crawl bizarre de Google ? Explications ?
Consultez la description détaillée des produits ou services de Google suivants : Google Webmaster Tools, Googlebot, Google Sitemaps, Google Music Search, Google Code Project Hosting
- Analyse de positionnement sur les data centers de Google
Cet outil vous permet d'afficher sur une seule page les résultats Google effectués sur de nombreux data centers (centres de données).
11 commentaires sur “Le système de crawl de Google en 2008”
Laisser une réponse
Hébergement web
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo (+ de 3 millions de visites/mois). Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.
A partir de 1,90 EUR HT/mois.
A la une sur WebRankInfo
Formation au référencement
Découvrez le programme de formation au référencement le plus complet : méthodologie d'optimisation du référencement Google, sites dynamiques, stratégies de liens, blogs, formation juridique Internet, Google Analytics, taux de transformation, ROI, etc.
Ce cycle de formation peut être pris en compte par votre budget formation... profitez-en !
Cette formation est assurée notamment par Olivier Duffez, créateur du site WebRankInfo et consultant indépendant en référencement.
Logiciel de pro
Vous cherchez un bon logiciel pour effectuer le suivi du référencement ? Je vous conseille AgentWebRanking, le logiciel leader sur le marché, développé par une entreprise française et vendu dans le monde entier depuis 1998.
En tant que consultant en référencement, je l'utilise pour mes prestations de conseil en référencement professionnel.
Derniers sites inscrits
- Hotel restaurant Le Pont Neuf à Florac Lozère dans les Gorges du Tarn
- Organisation coordination de tout type d'évènement en Haute Savoie
- Agence immobilière Somacimmo - Somain
- Hôtel de Bordeaux à La rochelle
- Vente en ligne de cactus plantes grasses et tillandsia
- TETRADIS, Distributeur spécialisé solutions interconnexion très haut débit
- Cartes, faire-parts et articles de papeterie à imprimer soi-même
- 17WebStore - Achetez aujourd'hui la technologie de demain
- Location de musique DJ pour trouver chaque soirée
- Santé des chiens et des chats : des vétérinaires répondent à vos questions
- Outils interactifs pour un développement durable facile en entreprises
- Must Animation : Dj animateur, organisation et l'animation évènementielle
- Location de villa et appartement à koh Samui en Thailande
- Le club des amateurs et passionnés des jeux de grille
- Colat Clés le Serrurier - Professionnel de la serrurerie en Guadeloupe



Merci Olivier pour ce billet très intéressant :)
Très intéressant comme billet, on voit l’histoire des différents types de crawls.
Certains parlaient de ce sujet depuis quelques temps.
Ce qui est bien aussi c’est l’image pour mieux comprendre le crawl.
Je ne vais pas me distinguer des autres commentaires pour dire que tout cela est très intéressant, merci !
Merci j’ai appris plein de nouvelles choses encore aujourd’hui ;)
Merci beaucoup pour ce billet, j’ai pu comprendre certaines choses :)
Merci Olivier pour ce billet qui se révèle être une très bonne synthèse =)
Magistral !
Le concept est parfaitement expliqué. C’est ce genre d’article qui va faire progresser ceux qui s’intéressent au référencement.
Merci Olivier pour ce billet !
C’est à mon avis l’explication du système de crawl de google la plus proche de la réalité.
Ca se complique là… j’ai un peu de mal. :)
Bon article, trés clair, mais chez moi les schémas ne passent pas (404)
Merci du signalement, j’ai corrigé les liens et mis à jour l’article.