• Configuration de l'affichage du site :
  • Affichage en pleine largeur
  • Affichage en basse résolution (800px)
  • Affichage en texte seul


Référencement :
conseils, outils, actualité, forum
tout ça gratuit !



Vous êtes ici : Analyses » Articles de WRI > GoogleBot détaillé


Googlebot expliqué en détails

Imprimer cet article

Par Olivier Duffez, le 21-02-2003

GoogleBot est le nom du robot d'indexation de Google. Ce robot est programmé pour fonctionner sur des centaines de machines à la fois, avec des adresses IP différentes. Il faut dire qu'il a 3 milliards de documents à mettre à jour régulièrement, et des millions de nouveaux à découvrir...
Dans la "famille des GoogleBot" on distingue deux sortes de robots :

  • le Fresh Crawler, dont l'adresse IP commence par 64.68.82., correspond au robot qui indexe les nouvelles pages trouvées par Google ; une fois visitées par ce robot, les pages apparaissent dans Google seulement quelques jours.
  • le Deep Crawler (ou Full Crawler), dont l'adresse IP commence par 216.239.46., correspond au robot qui effectue une indexation massive de tous les documents connus de Google, en général pendant environ une semaine, juste après la Google Dance.

Le Fresh Crawler n'indexe que les documents aux formats HTML et texte (formats MIME text/html et text/plain), tandis que le Deep Crawler indexe également d'autres types de documents (PDF, PostScript, Word, Excel, PowerPoint...).
Le Deep Crawler a pour objectif de faire une indexation massive de chaque site qu'il visite. Il est difficile de décrire selon quel algorithme il visite les pages, car cela dépend de plusieurs facteurs (liés au site) et du nombre de robots utilisés pour indexer le site. Les principaux critères ayant une influence sur la fréquence et le nombre de visites d'une page sont le PageRank et la fréquence de mise à jour par le webmaster. Il est possible également que la distance (en nombre de liens) de la page d'accueil joue un rôle.
Afin d'éviter une surcharge de votre serveur, GoogleBot espace ses visites dans le temps. D'autre part, il respecte le protocole d'exclusion des robots et commence donc toute indexation par la consultation du fichier robots.txt (si vous n'en avez pas, cela génère donc des erreurs 404, donc il vaut mieux en mettre un, même s'il reste vide).

Pour savoir si GoogleBot est venu sur votre site, il vous suffit de consulter vos fichiers log (journal des requêtes de votre site, stocké sur votre serveur). Si vous n'avez pas accès à ces fichiers, ou si vous ne savez pas comment les utiliser, vous pouvez utiliser RobotStats. Il s'agit d'une application gratuite Open Source écrite en PHP et MySQL, permettant d'analyser en détails les visites de Google sur votre site. A partir de la version 2.0, il sera bientôt possible de gérer autant de robots que vous le voulez !

Pour faciliter l'indexation de votre site, évitez à tout prix de passer des identifiants de session dans vos URL. En effet dans ce cas GoogleBot ne peut jamais terminer l'indexation d'un site, puisqu'il obtient un nouvel identifiant à chaque visite (il "pense" donc trouver une nouvelle page).
Pour les pages dynamiques, il est grandement recommandé d'utiliser la technique de l'URL rewriting.
Enfin assurez-vous que votre site est accessible, sinon en cas de visite de GoogleBot pendant une panne, il risque de se "vexer" et de ne plus revenir...