Googlebot

Nom du robot d’indexation de Google, qui parcourt le web de lien en lien à la recherche de nouvelles pages.

Googlebot

Le saviez-vous ? Depuis longtemps, il existe plusieurs versions de GoogleBot :

  • GoogleBot classique sert à indexer les pages web pour les inclure dans l’index de Google ; il visite les pages à une fréquence qui dépend de plusieurs facteurs. Il existe en version desktop et mobile (smartphone)
  • GoogleBot Mediapartner est dédié à Google AdSense : il analyse les pages afin de cibler au mieux les annonces à afficher il visite les pages suite à leur affichage par un internaute.
  • GoogleBot pour Google News indexe les pages d’actualité des sites sélectionnés par Google News ; la fréquence de visite est très importante (plusieurs fois par heure)

On peut savoir si GoogleBot est venu visiter son site en regardant les fichiers log, ou encore plus facilement en installant des applications comme RobotStats.

Mise à jour : la suite de cet article date de plusieurs années, attention à le lire pour votre culture web personnelle ! En particulier, il n’y a plus cette distinction entre les deux types de robots Google (Fresh Crawl et Full Crawl), ce qui n’empêche pas Google d’avoir plusieurs niveaux de crawl…

Dans la « famille des GoogleBot » on distingue deux sortes de robots :

  • le Fresh Crawler, dont l’adresse IP commence par 64.68.82., correspond au robot qui indexe les nouvelles pages trouvées par Google ; une fois visitées par ce robot, les pages apparaissent dans Google seulement quelques jours.
  • le Deep Crawler (ou Full Crawler), dont l’adresse IP commence par 216.239.46., correspond au robot qui effectue une indexation massive de tous les documents connus de Google, en général pendant environ une semaine, juste après la Google Dance.

Le Fresh Crawler n’indexe que les documents aux formats HTML et texte (formats MIME text/html et text/plain), tandis que le Deep Crawler indexe également d’autres types de documents (PDF, PostScript, Word, Excel, PowerPoint…).

Le Deep Crawler a pour objectif de faire une indexation massive de chaque site qu’il visite. Il est difficile de décrire selon quel algorithme il visite les pages, car cela dépend de plusieurs facteurs (liés au site) et du nombre de robots utilisés pour indexer le site. Les principaux critères ayant une influence sur la fréquence et le nombre de visites d’une page sont le PageRank et la fréquence de mise à jour par le webmaster. Il est possible également que la distance (en nombre de liens) de la page d’accueil joue un rôle.

Afin d’éviter une surcharge de votre serveur, GoogleBot espace ses visites dans le temps. D’autre part, il respecte le protocole d’exclusion des robots et commence donc toute indexation par la consultation du fichier robots.txt (si vous n’en avez pas, cela génère donc des erreurs 404, donc il vaut mieux en mettre un, même s’il reste vide).

Pour savoir si GoogleBot est venu sur votre site, il vous suffit de consulter vos fichiers log (journal des requêtes de votre site, stocké sur votre serveur). Si vous n’avez pas accès à ces fichiers, ou si vous ne savez pas comment les utiliser, vous pouvez utiliser RobotStats. Il s’agit d’une application gratuite Open Source écrite en PHP et MySQL, permettant d’analyser en détails les visites de Google sur votre site. Note de mise à jour : cette application n’est plus maintenue, désolé…

Pour faciliter l’indexation de votre site, évitez à tout prix de passer des identifiants de session dans vos URL. En effet dans ce cas GoogleBot ne peut jamais terminer l’indexation d’un site, puisqu’il obtient un nouvel identifiant à chaque visite (il « pense » donc trouver une nouvelle page).
Pour les pages dynamiques, il est grandement recommandé d’utiliser la technique de l’URL rewriting.
Enfin assurez-vous que votre site est accessible, sinon en cas de visite de GoogleBot pendant une panne, il risque de se « vexer » et de ne plus revenir…

Donnez votre avis sur Googlebot

Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.