1. ⚠️ Grosse PROMO en cours sur ma plateforme SEO My Ranking Metrics
    Rejeter la notice

Description du système de crawl et d'indexation de Google

Discussion dans 'Crawl et indexation Google, sitemaps' créé par WebRankInfo, 20 Août 2008.

  1. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 338
    J'aime reçus:
    158
    Depuis l'été 2007, Google a considérablement amélioré son système de crawl : non seulement le moteur semble arriver à indexer les très nombreuses pages créées chaque jour sur le web, mais il n'est plus rare de voir des pages indexées en quelques minutes à peine ! Voici quelques explications issues d'un brevet de Google qui décrit les différents types de crawlers et leurs rôles respectifs.

    Commençons par le système de crawl (récupération des documents web) et d'indexation (analyse des documents web) par Google.

    Le crawl
    Google a mis en place un logiciel de type crawler, dénommé GoogleBot. Il s'agit d'un robot d'indexation des pages web (et maintenant d'autres types). Son principe est simple (mais pas sa mise en œuvre !) : quand il lit une page pour l'indexer, il rajoute à sa liste de pages à visiter toutes celles liées à la page en cours de traitement.

    Théoriquement, il devrait donc être capable de connaître la plupart des pages du web, c'est-à-dire toutes celles qui ne sont pas orphelines (une page est dite orpheline si aucune autre ne pointe vers elle). Le volume des données à traiter étant considérable, ce robot est un programme réparti sur des centaines de serveurs.

    Outre la connaissance du plus grand nombre de pages, Google cherche aussi à les indexer régulièrement, car une bonne partie des pages sont mises à jour de temps en temps. D'ailleurs la fréquence de visite de GoogleBot sur une page web dépend de son PageRank : plus il est grand, plus il l'indexera souvent. D'un passage à l'autre, GoogleBot peut détecter une page devenue inexistante ("erreur 404").

    L'indexation
    Cette masse colossale d'informations, Google va l'analyser, la décortiquer jusque dans les moindres détails. A chaque mot ou phrase est en effet associé son type, basé sur le langage HTML. C'est ainsi qu'un mot contenu dans le titre sera jugé plus important que dans le corps du texte. Une échelle de valeurs classe les types de mots (titre de la page, titre de paragraphe H1 à H6, gras, italique, etc.). Ce pré-traitement, associé à d'autres critères dont celui du PageRank, permet de fournir les résultats les plus pertinents en premier.

    Rappel des systèmes de crawl et d'indexation
    Il est déjà loin le temps où Google ne mettait à jour son index qu'une fois par mois ! C'était la période mythique de la Google Dance pendant laquelle les résultats oscillaient entre l'ancien et le nouvel index, selon le data center de Google utilisé pour répondre à la requête de l'internaute.

    Ensuite, Google a mis en place ce qu'on a appelé l'everflux, c'est-à-dire la mise à jour permanente de son index (et a fortiori des résultats).

    Le système de crawl de Google
    Découverte d'URL et niveaux de crawl
    Google peut découvrir des nouvelles URL de 3 façons :
    Pour récupérer le contenu de ces nouvelles pages, Google a créé 3 couches de pages associées :
    • la couche de base contient la plupart des pages du web. Elles sont crawlées régulièrement, à une fréquence liée à la fréquence de mise à jour du contenu sur ces pages ainsi qu'à leur PageRank.
    • la couche quotidienne contient un petit nombre de pages (en comparaison avec la couche de base) qui sont crawlées de façon quotidienne.
    • la couche temps réel contient un nombre de pages encore plus restreint, qui sont crawlées en temps réel (avec une fréquence de l'ordre de la minute ou de l'heure).
    Apparemment il n'y a pas 3 types de robots mais un seul : Googlebot sait gérer les 3 couches de pages à crawler.

    Google calcule pour chaque page un score de crawl, qui lui sert à déterminer à quelle couche elle sera associée. Certaines thématiques sont traitées de façon spécifique, comme par exemple l'actualité.

    Gestion des redirections
    Quand le crawler détecte une redirection (code HTTP sous la forme 3XX), il réagit différemment selon le type de redirection :
    • pour une redirection temporaire (302), le robot crawle immédiatement la page vers laquelle il est redirigé
    • pour une redirection permanente (301), le robot transmet l'information à d'autres systèmes et reviendra crawler plus tard la page vers laquelle il est redirigé. On peut imaginer que dans ce cas, un traitement plus complexe est mis en œuvre, afin de transférer tout ce qui était connu à propos de l'ancienne URL vers la nouvelle (avec fusion des informations si l'URL finale était déjà connue).
    Analyse des liens et détection de contenus dupliqués
    Quand le crawler récupère une page, son contenu et les liens sont ensuite analysés. Un log des liens trouvés sur la page est envoyé par le crawler à d'autres programmes en charge de ces analyses plus poussées. Parmi ces analyses, on trouve :
    • l'analyse du contenu de la page
    • le calcul d'une signature à partir de l'URL de la page, pour servir à la détection de contenus dupliqués
    • le calcul d'une signature à partir du contenu de la page, pour servir à la détection de contenus dupliqués
    • l'analyse du texte des liens et même du texte autour des liens (c'est utilisé pour l'analyse off page)
    • la détection de contenu dupliqué au niveau d'une page
    • la détection de contenu dupliqué au niveau d'un site
    Au sujet de l'analyse du texte entourant le lien, Google donne un exemple dans son brevet : il s'agit d'une page A qui fait un lien texte vers une autre page B contenant une photo du Mont Everest :

    <p>Pour voir une photo du Mont Everest, <a href="page-B.html">cliquez ici</a></p>

    Même si ce lien n'est pas optimal pour le positionnement de la page B (car l'anchor text ne contient pas de mot-clé stratégique), Google peut tenir compte du fait qu'il y a des mots-clés juste à côté du lien. Cette information est stockée dans ce que les auteurs du brevet appellent la carte des ancres (Anchor Map). C'est peut-être rassurant mais il est indéniable qu'il vaut mieux avoir un ou plusieurs mots ciblés dans l'anchor text...

    Conclusion
    Les informations décrites ici sont issues d'un brevet, il n'est donc pas garanti que le système décrit ici soit en place. Par ailleurs, ce brevet Anchor tag indexing in a web crawler system est très vieux (il a été déposé en juillet 2003 et accepté fin 2007) et Google a sans doute adapté son système depuis...

    Pour en savoir plus au sujet de ce brevet :
     
  2. Szarah
    Szarah WRInaute accro
    Inscrit:
    22 Février 2006
    Messages:
    6 647
    J'aime reçus:
    1
    C'est un article réellement très intéressant, il y a matière à discussion en effet.
    Mon sentiment depuis 2006, c'était que GG donnait une certaine priorité au crawl des redirections (c'est pour ça que j'avais froidement mis les berszerkers derrière une 302 du root).
     
  3. e-kiwi
    e-kiwi WRInaute accro
    Inscrit:
    23 Décembre 2003
    Messages:
    13 855
    J'aime reçus:
    1
    moi ce qui m'intéresse, c'est d'avoir plus d'informations sur :
    "certaines thématiques sont traitées de façon spécifique, comme par exemple l'actualité."

    si quelqu'un en a... ;)
     
  4. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    10 578
    J'aime reçus:
    0
    Intéressante cette notion de couches de périodes différentes qui explique pas mal de constats fait régulièrement en matière de crawlabilité. allez hop une reco :wink:
     
  5. V1tr1neMag1que
    V1tr1neMag1que WRInaute discret
    Inscrit:
    12 Décembre 2007
    Messages:
    126
    J'aime reçus:
    0
    interressant
    +1 reco
     
  6. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 338
    J'aime reçus:
    158
    Merci, je suis sur une bonne lancée avec mes derniers articles vu vos remerciements. J'en ai encore qq uns sous le coude pour la rentrée
     
  7. e-kiwi
    e-kiwi WRInaute accro
    Inscrit:
    23 Décembre 2003
    Messages:
    13 855
    J'aime reçus:
    1
    en même temps, je pense que celui là est intéressant pour tous les membres de Wri, quelqusoit le niveau. j'ai mis une reco aussi, et je crois que depuis le début c'est la seconde que je met, c'est pour dire ;)
     
  8. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    33 627
    J'aime reçus:
    249
    Très intéressant article pour mieux comprendre les crawls et le fonctionnement de Google.
     
  9. guide-de-stockholm
    guide-de-stockholm WRInaute discret
    Inscrit:
    11 Avril 2008
    Messages:
    142
    J'aime reçus:
    0
    Donc si je comprends bien, un site qui est dans la "couche de base" et qui se fait pomper son contenu par un site dans la "couche quotidienne" sera celui qui fait du duplicate content parce que le second site sera plus rapidement indexé et donc son contenu considéré comme plus ancien?
     
  10. Fnnyaert
    Fnnyaert WRInaute discret
    Inscrit:
    25 Décembre 2007
    Messages:
    59
    J'aime reçus:
    0
    Rien de bien nouveau. On sait bien que la fréquence de crawl des pages sur internet n'est pas la même pour toutes et que beaucoup de paramètres rentrent en jeu (comme ceux que tu as marqué et sûrement d'autres).

    J'aime bien quand tu marques "est très vieux (il a été déposé en juillet 2003 et accepté fin 2007) et Google a sans doute adapté son système depuis..." et dans le titre de ton lien " l'état actuel du système " ...
     
  11. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    10 578
    J'aime reçus:
    0
    Le kiwi est radin :d
     
  12. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    10 578
    J'aime reçus:
    0
    Il ne faut pas confondre :

    - Crawl de la page (qui permet de prendre date)
    - Insertion dans l'index (les fameuses couches)
     
  13. guide-de-stockholm
    guide-de-stockholm WRInaute discret
    Inscrit:
    11 Avril 2008
    Messages:
    142
    J'aime reçus:
    0
    Justement, le site qui est crawlé plus fréquemment aura la date la plus ancienne (de crawl pour un contenu en particulier).
     
  14. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    10 578
    J'aime reçus:
    0
    Je suppose qu'avant le crawl il y a une phase "inventaire des pages" qui permet de résoudre ce pb ... sinon ca serait trop facile et ca se saurait en plus.
     
  15. Djoule_logo
    Djoule_logo WRInaute impliqué
    Inscrit:
    30 Mai 2007
    Messages:
    590
    J'aime reçus:
    0
    Oui, mais on est bien d'accord qu'un site faisant partie de la couche quotidienne sera crawlé tres frequement (sans parler d'inclusion dans l'index). Donc une nouvelle page sera très vite vue. Alors qu'un site de la couche de base sera crawler moins frequement, et une nouvelle page peut être decouverte plusieurs jours après sa mise en ligne.
    Le problème du DC reste donc entier.
     
  16. domdom26
    domdom26 WRInaute impliqué
    Inscrit:
    9 Novembre 2004
    Messages:
    565
    J'aime reçus:
    0
    Ce qui serait bien aussi, c'est une explication sur comment et pourquoi une page actualité est priorisé et ensuite mis très loin aux oubliettes. Donc comment concevoir une page qui traite d'Actualités tous en restant dans le Top10 sur google pendant plusieurs mois.
     
  17. Szarah
    Szarah WRInaute accro
    Inscrit:
    22 Février 2006
    Messages:
    6 647
    J'aime reçus:
    1
    L'"actualité" est un truc jetable par excellence. Une dépêche sera logiquement mise au top puis chassée par les analyses et les dossiers la concernant.
    C'est la réponse : évolution.
    Les malins modifient à peine le papier de départ, lui ajoutant les menues nouveautés, et ils modifient légèrement le title en gardant les mots-clés. Suffit de surveiller GG-news pour le constater.
     
  18. e-kiwi
    e-kiwi WRInaute accro
    Inscrit:
    23 Décembre 2003
    Messages:
    13 855
    J'aime reçus:
    1
    je pense effectivement que Google sait gérer ce cas.
     
  19. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 338
    J'aime reçus:
    158
    en cas de contenus dupliqués, pour identifier la source, Google utilise d'autres critères que la chronologie des crawls des différentes versions. Par exemple, le netlinking entre en jeu

    @Fnnyaert : merci pour la remarque, je vais corriger mon titre. Par contre je vais oublier le reste de ton message, car j'ai du mal avec ceux qui ne sont jamais satisfaits de trouver gratuitement du contenu sur WRI...

    edit : ce n'était pas un titre mais un sous-titre à l'intérieur de l'article. J'avais mis "actuel" par opposition à la description du système de crawl datant de l'époque des Google Dance. enfin bon, c'est du détail hein...
     
  20. tophus
    tophus WRInaute discret
    Inscrit:
    12 Août 2005
    Messages:
    196
    J'aime reçus:
    0
    Merci, bon article!

    Pour en revenir à la découverte d'URL et niveaux de crawl:
    Je rajouterais Google peut également découvrir par la google toolbar. Je crois que ce n'est plus à démontrer.
     
  21. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 338
    J'aime reçus:
    158
    Matt Cutts a pourtant encore dit le contraire le mois dernier : http://www.mattcutts.com/blog/toolbar-i ... bunk-post/

    cela dit ce n'est pas bien important...
     
  22. Audiofeeline
    Audiofeeline WRInaute accro
    Inscrit:
    20 Octobre 2005
    Messages:
    4 781
    J'aime reçus:
    2
    En effet, je suis assez concerné par ça. Le fait de traiter des "news du jour" favorise un peu l'indexation. Je ne sais pas trop comment ça fonctionne (j'imagine que c'est un truc qui utilise le principe de Google News) mais généralement Google arrive a positionner des résultats récents notamment sur des trucs qui buzz durant une journée par exemple.
    Après c'est classique : ancienneté du site, force du référencement, pertinence, etc.
    C'est assez nouveau, ça du être introduit en même temps que l'indexation en "temps réel".

    Négatif, Olivier, tu n'as pas fait des tests là dessus ?
    Je pencherai plus pour une histoire de cookie ou de referer.
     
  23. Szarah
    Szarah WRInaute accro
    Inscrit:
    22 Février 2006
    Messages:
    6 647
    J'aime reçus:
    1
    Avec la GGbar installée, la consultation d'une page envoie une requête à GG pour pouvoir afficher le PR de la page, je pense que ça, c'est certain.
    Maintenant, si Matt Cutts affirme que quand GG reçoit l'info qu'il existe une page inconnue de sa bdd, il ne fait rien, bin ok, ok ok. S'il le dit ...
     
  24. Druidefou
    Druidefou WRInaute discret
    Inscrit:
    10 Août 2005
    Messages:
    167
    J'aime reçus:
    0
    En lisant ça, je vois que j'ai encore du chemin à parcourir. Je n'avais pas du tout connaissance de ce genre de système, même si à le lire ça semble plutôt logique.

    Mais un site qui ne fait pas d'actualités, mais qui a un contenu mis à jour quotidiennement. Par exemple je prends mon cas, les membres viennent mettre des projets. Le jour où le site aura une activité importante, il y aura beaucoup de projets posté chaque jour. Si en page d'accueil je mets les derniers projets ajoutés, google vient t'il chaque minute, ou préfère t'il mettre comme un site à voir quotidiennement, ou alors je reste définitivement en couche de base ?
     
  25. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    33 627
    J'aime reçus:
    249
  26. V1tr1neMag1que
    V1tr1neMag1que WRInaute discret
    Inscrit:
    12 Décembre 2007
    Messages:
    126
    J'aime reçus:
    0
    tu as la réponse au dessus :

    tout simplement
     
  27. tophus
    tophus WRInaute discret
    Inscrit:
    12 Août 2005
    Messages:
    196
    J'aime reçus:
    0
    Je veux bien croire Matt Cutts....
    Mais dans ce cas, difficile d'expliquer comment des sites en cours de dev se retrouvent indexés.
    Je travail seul, aucune personne ne connais mes ndd en cours de dev, aucun lien, pas de rss , rien.
    Dernier exemple; j'utilise un cms, je copie mes BDD d'un site à l'autre pour tester avec du contenu.
    Surprise, je retrouve indexé le site en dev en moins de 24h.
    Avec en prime un contenu dupliqué. et une apparition sur la première page des deux site en questions.....
    Je vois vraiment pas comment le site a été crawlé si ce n'ai pas par GGbar. le site est uniquement indexé dans GG, aucun autre moteur ne l'a trouvé...
    GG ferait peut être dans la voyance.
     
  28. thony25
    thony25 WRInaute discret
    Inscrit:
    5 Mai 2004
    Messages:
    66
    J'aime reçus:
    0
    Je travaillais sur un site il y a quelques mois. Je suis le seul à connaître l'url. Et ben google le connait déjà... et j'ai une toolbar :)

    bon article sinon
     
  29. YoyoS
    YoyoS WRInaute accro
    Inscrit:
    14 Septembre 2006
    Messages:
    3 648
    J'aime reçus:
    0
    Et pourquoi vous avez la barre google au fait ? :p Si y a bien un truc inutile, c'est ça !
     
  30. Fnnyaert
    Fnnyaert WRInaute discret
    Inscrit:
    25 Décembre 2007
    Messages:
    59
    J'aime reçus:
    0
    Toutes façons Google connaît tout ... la dernière fois je cherchais mon portable, j'ai demandé à Google il m'a indiqué qu'il était sous mon lit ... formidable, mais jusqu'où iront ils ...

    Sérieusement si Matt Cutts a indiqué que non pour la toolbars c'est peut être pour que les gens continuent à l'installer sans crainte ... après tout, se faire tiré des informations à son insu n'est pas très rassurant. Mais c'est vrai que c'est pas très important.
     
  31. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    33 627
    J'aime reçus:
    249
    Pour les corrections orthographiques manquantes de FireFox. :mrgreen:
     
  32. YoyoS
    YoyoS WRInaute accro
    Inscrit:
    14 Septembre 2006
    Messages:
    3 648
    J'aime reçus:
    0
    Y a des dictionnaires à ajouter comme des extensions pour firefox :D
     
  33. Thierry Bugs
    Thierry Bugs WRInaute accro
    Inscrit:
    16 Juin 2004
    Messages:
    3 780
    J'aime reçus:
    1
    la majorité des surfeurs ne se servent pas de firefox


    la google barre c'est pour surveiller le pagerank bien entendu :lol:
    (moi je me sers aussi du moteur de recherche intégré,
    du lien direct vers gmail)
     
  34. arnaudmn
    arnaudmn WRInaute passionné
    Inscrit:
    11 Mai 2005
    Messages:
    1 315
    J'aime reçus:
    2
    Mais aussi pour l'orthographe dans les formulaires :)
     
  35. fredfan
    fredfan WRInaute accro
    Inscrit:
    2 Juillet 2008
    Messages:
    2 981
    J'aime reçus:
    2
    Chez les développeurs et les référenceurs je pense que les utilisateurs régulier d'internet explorer ne sont pas légion, à part pour tester les corrections de bug (et encore : ie tab permet de profiter des plugins de firefox tout en affichant avec ie)
     
  36. nicolo
    nicolo WRInaute discret
    Inscrit:
    9 Juillet 2004
    Messages:
    163
    J'aime reçus:
    0
    Hello, très interessant effectivement,
    si je peux me permettre d'ajouter une remarque sur l'intro liée à mon epxerience :
    "Google peut découvrir des nouvelles URL de 3 façons" : j'ai indexé un site dans google sans aucune de ces 3 façons, ce site avait des tags google Addsense pendant son devt et voilà que je le retrouve ds l'index de Google après 2 semaines de devt... Et si ce n'est pas les tags Addsens qui ont dvoilé l'existence dudit site, j'ai ouie dire que la Google Toolbar, que j'ai sur mon navigateur, pouvait renvoyer l'existence d'un nouveau site et donc entrainer son indexation.
     
  37. dadovb
    dadovb WRInaute passionné
    Inscrit:
    22 Novembre 2005
    Messages:
    1 797
    J'aime reçus:
    0
    Ce serait pas la première fois qu'il raconte des cracks celui-ci, son blog c'est quand même de la comm. pour webmaster...

    J'ai des urls d'outils privés de ma société qui se sont retrouvés indexés dans google alors qu'il n'y a évidemment aucun lien pointant dessus...et un robots.txt dans le dossier 8O
     
  38. christophetek
    christophetek Nouveau WRInaute
    Inscrit:
    27 Mai 2008
    Messages:
    5
    J'aime reçus:
    0
    Bonjour et merci pour cet article très intéressant.
    Pour un débutant comme moi y'a déjà assez de zones d'ombre dans le fonctionnement de :?: GoogleCorp :?: comme ça alors des articles dans ce genre sont vraiment les bienvenus ...
    On en veut encore ! Bonne réf à tous :wink:
     
  39. Aye-Aye
    Aye-Aye WRInaute passionné
    Inscrit:
    15 Avril 2005
    Messages:
    1 647
    J'aime reçus:
    0
    Trés bon article.
     
  40. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 338
    J'aime reçus:
    158
    Merci :oops:
     
Chargement...
Similar Threads - Description système crawl Forum Date
Systeme <meta> description sur galerie dynamique Développement d'un site Web ou d'une appli mobile 15 Juin 2012
Changer les titres / descriptions / mots-clés dans un système de pagination dynamique PHP Débuter en référencement 9 Juin 2010
WordPress Search console : Balises title & Meta description en double sur page d'accueil Crawl et indexation Google, sitemaps 26 Septembre 2018
Application android - modification de la description Problèmes de référencement spécifiques à vos sites 26 Septembre 2018
Title et Description en dble alors que c'est un renvoie 301 Référencement Google 6 Septembre 2018
SERP Google : Meta Description de quelques mots aujourd'hui Référencement Google 27 Août 2018
[YOAST SEO] Mauvais title et méta description dans les SERP Débuter en référencement 26 Juillet 2018
Sites référents qui spolient title et description Débuter en référencement 20 Juin 2018
Meta description pas reprise par Google Problèmes de référencement spécifiques à vos sites 18 Juin 2018
Balises title et META description en double GWT Crawl et indexation Google, sitemaps 7 Juin 2018
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice