Googlebot expliqué en détails
Olivier Duffez, Vendredi 21 février 2003
Mise à jour : cet article date de plusieurs années, attention à le lire pour votre culture web personnelle ! En particulier, il n'y a plus cette distinction entre les deux types de robots Google (Fresh Crawl et Full Crawl), ce qui n'empêche pas Google d'avoir plusieurs niveaux de crawl…
GoogleBot est le nom du robot d'indexation de Google. Ce robot est programmé pour fonctionner sur des centaines de machines à la fois, avec des adresses IP différentes. Il faut dire qu'il a 3 milliards de documents à mettre à jour régulièrement, et des millions de nouveaux à découvrir…
Dans la « famille des GoogleBot » on distingue deux sortes de robots :
- le Fresh Crawler, dont l'adresse IP commence par 64.68.82., correspond au robot qui indexe les nouvelles pages trouvées par Google ; une fois visitées par ce robot, les pages apparaissent dans Google seulement quelques jours.
- le Deep Crawler (ou Full Crawler), dont l'adresse IP commence par 216.239.46., correspond au robot qui effectue une indexation massive de tous les documents connus de Google, en général pendant environ une semaine, juste après la Google Dance.
Le Fresh Crawler n'indexe que les documents aux formats HTML et texte (formats MIME text/html et text/plain), tandis que le Deep Crawler indexe également d'autres types de documents (PDF, PostScript, Word, Excel, PowerPoint…).
Le Deep Crawler a pour objectif de faire une indexation massive de chaque site qu'il visite. Il est difficile de décrire selon quel algorithme il visite les pages, car cela dépend de plusieurs facteurs (liés au site) et du nombre de robots utilisés pour indexer le site. Les principaux critères ayant une influence sur la fréquence et le nombre de visites d'une page sont le PageRank et la fréquence de mise à jour par le webmaster. Il est possible également que la distance (en nombre de liens) de la page d'accueil joue un rôle.
Afin d'éviter une surcharge de votre serveur, GoogleBot espace ses visites dans le temps. D'autre part, il respecte le protocole d'exclusion des robots et commence donc toute indexation par la consultation du fichier robots.txt (si vous n'en avez pas, cela génère donc des erreurs 404, donc il vaut mieux en mettre un, même s'il reste vide).
Pour savoir si GoogleBot est venu sur votre site, il vous suffit de consulter vos fichiers log (journal des requêtes de votre site, stocké sur votre serveur). Si vous n'avez pas accès à ces fichiers, ou si vous ne savez pas comment les utiliser, vous pouvez utiliser RobotStats. Il s'agit d'une application gratuite Open Source écrite en PHP et MySQL, permettant d'analyser en détails les visites de Google sur votre site. Note de mise à jour : cette application n'est plus maintenue, désolé…
Pour faciliter l'indexation de votre site, évitez à tout prix de passer des identifiants de session dans vos URL. En effet dans ce cas GoogleBot ne peut jamais terminer l'indexation d'un site, puisqu'il obtient un nouvel identifiant à chaque visite (il « pense » donc trouver une nouvelle page).
Pour les pages dynamiques, il est grandement recommandé d'utiliser la technique de l'URL rewriting.
Enfin assurez-vous que votre site est accessible, sinon en cas de visite de GoogleBot pendant une panne, il risque de se « vexer » et de ne plus revenir…
Formation référencement et webmarketing
Vous souhaitez sans doute améliorer votre référencement, avez-vous pensé à suivre une formation spécialisée sur le référencement naturel ? En 2008, plus de 700 entreprises ont assisté à nos différentes sessions, la plupart faisant financer ces journées par la formation professionnelle (OPCA). Orange Labs nous a décerné un taux de satisfaction des participants de 90% (octobre 2008).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans la profession, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, cliquez ici pour consulter le site de Ranking Metrics (organisme de formation agréé).
Lectures recommandées sur ce thème :
- Etude de Googlebot, le robot crawler de Google (Fresh Bot, Deep Bot)
- Le Full Crawl a enfin commencé
- La danse de Googlebot :-) La Google Dance
- Etude de Googlebot, le robot d'indexation de Google
- La vie d'une page sur le web : Fresh Crawl, Deep Crawl, Google Dance
- Début du Full Crawl
- Présentation de l'indexation Google - Googlebot, le robot de Google
- Le début du full crawl
- L'algorithme de Google en résumé (mars 2003)
- Petit changement pour Slurp (le robot de Yahoo)
- Google dance / full crawl
- google crawl indexation nouveaux domaines
- Grosse activité de GoogleBot cette semaine (Fresh Crawl)
- Le deep crawl de GoogleBot sur WebRankInfo
- Deep crawl de google aux USA
- Frequence des full crawl de googlebot
- Le fresh-deep crawl c'est partiiiii !
- Googlebot et changement d'adresse IP pendant le full crawl
- Le crawl qui suit la Google Dance
- Twiceler le bot de Cuill (Google Killer) vous crawl t-il ?
- "Deep Crawl" ou "Fresh Crawl"
- différence entre crawl.googlebot et crawler.googlebot ?
- Etude de Googlebot, le robot d'indexation de Google
- Unknown robot (identified by 'crawl')
- crawl et crawler googlebot ?
Consultez la description détaillée des produits ou services de Google suivants : Googlebot, Google Feed Fetcher, Google Webmaster Tools, Google Sitemaps, Google News
- Déterminer l'âge d'un site
Cet outil vous permet de connaître une estimation de l'ancienneté d'un site : il fournit la date à laquelle Google l'a indexé la première fois (et la même chose pour archive.org). - Liste de sous-domaines
Cet outil vous permet de trouver la liste des sous-domaines (indexés) d'un site. - Test data centers Google
Cet outil vous permet d'afficher sur une seule page les résultats Google effectués sur de nombreux data centers (centres de données). - Calcul du taux de liens profonds
Cet outil vous permet de calculer le taux de liens profonds vers un site web. Un lien profond est un lien qui ne pointe pas vers la page d'accueil mais au contraire vers une page interne du site. Les sites dont l'essentiel du référencement vient de leurs inscriptions dans des annuaires ont un taux de liens profonds faible ; à l'inverse, les sites de référence ont souvent un taux de liens profonds plus important, signe que leur contenu a suscité de nombreux liens spontanés. - Analyse du positionnement dans Google
Cet outil vous permet de vérifier si une ou plusieurs page(s) de votre site arrive(nt) dans les premiers résultats de Google, pour certains mots-clés recherchés.
Laisser une réponse
Hébergement web
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo (+ de 3 millions de visites/mois). Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.
A partir de 1,90 EUR HT/mois.
A la une sur WebRankInfo
Formation au référencement
Découvrez le programme de formation au référencement le plus complet : méthodologie d'optimisation du référencement Google, sites dynamiques, stratégies de liens, blogs, formation juridique Internet, Google Analytics, taux de transformation, ROI, etc.
Ce cycle de formation peut être pris en compte par votre budget formation... profitez-en !
Cette formation est assurée notamment par Olivier Duffez, créateur du site WebRankInfo et consultant indépendant en référencement.
Logiciel de pro
Vous cherchez un bon logiciel pour effectuer le suivi du référencement ? Je vous conseille AgentWebRanking, le logiciel leader sur le marché, développé par une entreprise française et vendu dans le monde entier depuis 1998.
En tant que consultant en référencement, je l'utilise pour mes prestations de conseil en référencement professionnel.
Derniers sites inscrits
- Hotel restaurant Le Pont Neuf à Florac Lozère dans les Gorges du Tarn
- Organisation coordination de tout type d'évènement en Haute Savoie
- Agence immobilière Somacimmo - Somain
- Hôtel de Bordeaux à La rochelle
- Vente en ligne de cactus plantes grasses et tillandsia
- TETRADIS, Distributeur spécialisé solutions interconnexion très haut débit
- Cartes, faire-parts et articles de papeterie à imprimer soi-même
- 17WebStore - Achetez aujourd'hui la technologie de demain
- Location de musique DJ pour trouver chaque soirée
- Santé des chiens et des chats : des vétérinaires répondent à vos questions
- Outils interactifs pour un développement durable facile en entreprises
- Must Animation : Dj animateur, organisation et l'animation évènementielle
- Location de villa et appartement à koh Samui en Thailande
- Le club des amateurs et passionnés des jeux de grille
- Colat Clés le Serrurier - Professionnel de la serrurerie en Guadeloupe


