Vous êtes ici : Dossiers référencement > Indexation Google

Membre WebRankInfo ?

S'inscrire Aide

Les mécanismes du crawl de Google

Par Olivier Duffez, Mercredi 20 août 2008

Depuis l'été 2007, Google a considérablement amélioré son système de crawl : non seulement le moteur semble arriver à indexer les très nombreuses pages créées chaque jour sur le web, mais il n'est plus rare de voir des pages indexées en quelques minutes à peine ! Voici quelques explications issues d'un brevet de Google qui décrit les différents types de crawlers et leurs rôles respectifs.

Rappel des systèmes de crawl et d'indexation

Il est déjà loin le temps où Google ne mettait à jour son index qu'une fois par mois ! C'était la période mythique de la Google Dance pendant laquelle les résultats oscillaient entre l'ancien et le nouvel index, selon le data center utilisé pour répondre à la requête de l'internaute.

Ensuite, Google a mis en place ce qu'on a appelé l'everflux, c'est-à-dire la mise à jour permanente de son index (et a fortiori des résultats).

Le système de crawl de Google

Découverte d'URL et niveaux de crawl

Google peut découvrir des nouvelles URL de 3 façons :

Pour récupérer le contenu de ces nouvelles pages, Google a créé 3 couches de pages associées :

  • la couche de base contient la plupart des pages du web. Elles sont crawlées régulièrement, à une fréquence liée à la fréquence de mise à jour du contenu sur ces pages ainsi qu'à leur PageRank.
  • la couche quotidienne contient un petit nombre de pages (en comparaison avec la couche de base) qui sont crawlées de façon quotidienne.
  • la couche temps réel contient un nombre de pages encore plus restreint, qui sont crawlées en temps réel (avec une fréquence de l'ordre de la minute ou de l'heure).

Apparemment il n'y a pas 3 types de robots mais un seul : Googlebot sait gérer les 3 couches de pages à crawler.

Google calcule pour chaque page un score de crawl, qui lui sert à déterminer à quelle couche elle sera associée. Certaines thématiques sont traitées de façon spécifique, comme par exemple l'actualité.

Gestion des redirections

Quand le crawler détecte une redirection (code HTTP sous la forme 3XX), il réagit différemment selon le type de redirection :

  • pour une redirection temporaire (302), le robot crawle immédiatement la page vers laquelle il est redirigé
  • pour une redirection permanente (301), le robot transmet l'information à d'autres systèmes et reviendra crawler plus tard la page vers laquelle il est redirigé. On peut imaginer que dans ce cas, un traitement plus complexe est mis en œuvre, afin de transférer tout ce qui était connu à propos de l'ancienne URL vers la nouvelle (avec fusion des informations si l'URL finale était déjà connue).

Analyse des liens et détection de contenus dupliqués

Quand le crawler récupère une page, son contenu et les liens sont ensuite analysés. Un log des liens trouvés sur la page est envoyé par le crawler à d'autres programmes en charge de ces analyses plus poussées. Parmi ces analyses, on trouve :

  • l'analyse du contenu de la page
  • le calcul d'une signature à partir de l'URL de la page, pour servir à la détection de contenus dupliqués
  • le calcul d'une signature à partir du contenu de la page, pour servir à la détection de contenus dupliqués
  • l'analyse du texte des liens et même du texte autour des liens (c'est utilisé pour l'analyse off page)
  • la détection de contenu dupliqué au niveau d'une page
  • la détection de contenu dupliqué au niveau d'un site

Au sujet de l'analyse du texte entourant le lien, Google donne un exemple dans son brevet : il s'agit d'une page A qui fait un lien texte vers une autre page B contenant une photo du Mont Everest :

<p>Pour voir une photo du Mont Everest, <a href="page-B.html">cliquez ici</a></p>

Même si ce lien n'est pas optimal pour le positionnement de la page B (car l'anchor text ne contient pas de mot-clé stratégique), Google peut tenir compte du fait qu'il y a des mots-clés juste à côté du lien. Cette information est stockée dans ce que les auteurs du brevet appellent la carte des ancres (Anchor Map). C'est peut-être rassurant mais il est indéniable qu'il vaut mieux avoir un ou plusieurs mots ciblés dans l'anchor text...

Voici un schéma sur la prise en compte du contexte sémantique des backlinks par Google :

Prise en compte du contexte sémantique des backlinks par Google

Conclusion

Les informations décrites ici sont issues d'un brevet, il n'est donc pas garanti que le système décrit ici soit en place. Par ailleurs, ce brevet Anchor tag indexing in a web crawler system est très vieux (il a été déposé en juillet 2003 et accepté fin 2007) et Google a sans doute adapté son système depuis...

Pour en savoir plus au sujet de ce brevet :

  • auteurs : Huican Zhu, Jeffrey Dean, Sanjay Ghemawat, Bwolen Po-Jen Yang, and Anurag Acharya
  • attribué à Google sous le numéro 7,308,643
  • déposé le 3 juillet 2003 et attribué le 11 décembre 2007
  • les détails : sur le site uspto.gov ou dans l'excellente analyse de Bill Slawski.

On discute du fonctionnement du crawl de Google dans le forum WebRankInfo.

A propos de l'auteur : Olivier Duffez Olivier Duffez sur Google+ Olivier Duffez sur Twitter Olivier Duffez sur Facebook Olivier Duffez sur LinkedIn

Olivier DuffezConsultant indépendant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC, RueDuCommerce...). Il édite le site WebRankInfo.com qu'il a créé en 2002, devenu la plus grande communauté francophone sur le référencement (+ 200.000 membres et 1,3 million de posts). Il a également créé la société Ranking Metrics, leader des formations emarketing en France (référencement naturel, AdWords, Analytics, réseaux sociaux).

Vous avez aimé cet article ? Partagez-le !

Vous aimez WebRankInfo ? Suivez-nous !

Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.

11 commentaires

  1. Sébastien Billard (4 comments) dit :

    Merci Olivier pour ce billet très intéressant :)

  2. Olivier Poète (4 comments) dit :

    Très intéressant comme billet, on voit l'histoire des différents types de crawls.
    Certains parlaient de ce sujet depuis quelques temps.
    Ce qui est bien aussi c'est l'image pour mieux comprendre le crawl.

  3. Mute (9 comments) dit :

    Je ne vais pas me distinguer des autres commentaires pour dire que tout cela est très intéressant, merci !

  4. crocxx (2 comments) dit :

    Merci j'ai appris plein de nouvelles choses encore aujourd'hui ;)

  5. My Agence (2 comments) dit :

    Merci beaucoup pour ce billet, j'ai pu comprendre certaines choses :)

  6. Ramenos (6 comments) dit :

    Merci Olivier pour ce billet qui se révèle être une très bonne synthèse =)

  7. Laurent (33 comments) dit :

    Magistral !

    Le concept est parfaitement expliqué. C'est ce genre d'article qui va faire progresser ceux qui s'intéressent au référencement.

  8. Graphic Evolution (1 comments) dit :

    Merci Olivier pour ce billet !
    C'est à mon avis l'explication du système de crawl de google la plus proche de la réalité.

  9. Adri (5 comments) dit :

    Ca se complique là... j'ai un peu de mal. :)

  10. Tom_BBP (1 comments) dit :

    Bon article, trés clair, mais chez moi les schémas ne passent pas (404)

  11. Olivier Duffez (1340 comments) dit :

    Merci du signalement, j'ai corrigé les liens et mis à jour l'article.

Postez un commentaire !

Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.

En postant un commentaire, vous acceptez les CGU du site WebRankInfo.

Formation référencement et webmarketing

Venez chez Ranking Metrics vous former au référencement, à Google Analytics et aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (financement possible par OPCA, DIF...).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation agréé).

Hébergement web

Hebergement web mutualise, dedie

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo. Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.

A partir de 1,90 EUR HT/mois.