Vous êtes ici : Dossiers référencement > Indexation Google

Membre WebRankInfo ?

S'inscrire Aide

Googlebot expliqué en détails

Par Olivier Duffez , Vendredi 21 février 2003

class="encadre">Mise à jour : cet article date de plusieurs années, attention à le lire pour votre culture web personnelle ! En particulier, il n'y a plus cette distinction entre les deux types de robots Google (Fresh Crawl et Full Crawl), ce qui n'empêche pas Google d'avoir plusieurs niveaux de crawl...

GoogleBot est le nom du robot d'indexation de Google. Ce robot est programmé pour fonctionner sur des centaines de machines à la fois, avec des adresses IP différentes. Il faut dire qu'il a 3 milliards de documents à mettre à jour régulièrement, et des millions de nouveaux à découvrir...

Dans la "famille des GoogleBot" on distingue deux sortes de robots :

  • le Fresh Crawler, dont l'adresse IP commence par 64.68.82., correspond au robot qui indexe les nouvelles pages trouvées par Google ; une fois visitées par ce robot, les pages apparaissent dans Google seulement quelques jours.
  • le Deep Crawler (ou Full Crawler), dont l'adresse IP commence par 216.239.46., correspond au robot qui effectue une indexation massive de tous les documents connus de Google, en général pendant environ une semaine, juste après la Google Dance.

Le Fresh Crawler n'indexe que les documents aux formats HTML et texte (formats MIME text/html et text/plain), tandis que le Deep Crawler indexe également d'autres types de documents (PDF, PostScript, Word, Excel, PowerPoint...).

Le Deep Crawler a pour objectif de faire une indexation massive de chaque site qu'il visite. Il est difficile de décrire selon quel algorithme il visite les pages, car cela dépend de plusieurs facteurs (liés au site) et du nombre de robots utilisés pour indexer le site. Les principaux critères ayant une influence sur la fréquence et le nombre de visites d'une page sont le PageRank et la fréquence de mise à jour par le webmaster. Il est possible également que la distance (en nombre de liens) de la page d'accueil joue un rôle.

Afin d'éviter une surcharge de votre serveur, GoogleBot espace ses visites dans le temps. D'autre part, il respecte le protocole d'exclusion des robots et commence donc toute indexation par la consultation du fichier robots.txt (si vous n'en avez pas, cela génère donc des erreurs 404, donc il vaut mieux en mettre un, même s'il reste vide).

Pour savoir si GoogleBot est venu sur votre site, il vous suffit de consulter vos fichiers log (journal des requêtes de votre site, stocké sur votre serveur). Si vous n'avez pas accès à ces fichiers, ou si vous ne savez pas comment les utiliser, vous pouvez utiliser RobotStats. Il s'agit d'une application gratuite Open Source écrite en PHP et MySQL, permettant d'analyser en détails les visites de Google sur votre site. Note de mise à jour : cette application n'est plus maintenue, désolé...

Pour faciliter l'indexation de votre site, évitez à tout prix de passer des identifiants de session dans vos URL. En effet dans ce cas GoogleBot ne peut jamais terminer l'indexation d'un site, puisqu'il obtient un nouvel identifiant à chaque visite (il "pense" donc trouver une nouvelle page).
Pour les pages dynamiques, il est grandement recommandé d'utiliser la technique de l'URL rewriting.
Enfin assurez-vous que votre site est accessible, sinon en cas de visite de GoogleBot pendant une panne, il risque de se "vexer" et de ne plus revenir...

A propos de l'auteur : Olivier Duffez Olivier Duffez sur Google+ Olivier Duffez sur Twitter Olivier Duffez sur Facebook Olivier Duffez sur LinkedIn

Olivier DuffezConsultant indépendant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC, RueDuCommerce...). Il édite le site WebRankInfo.com qu'il a créé en 2002, devenu la plus grande communauté francophone sur le référencement (+ 200.000 membres et 1,3 million de posts). Il a également créé la société Ranking Metrics, leader des formations emarketing en France (référencement naturel, AdWords, Analytics, réseaux sociaux).

Vous avez aimé cet article ? Partagez-le !

Vous aimez WebRankInfo ? Suivez-nous !

Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.

Postez un commentaire !

Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.

En postant un commentaire, vous acceptez les CGU du site WebRankInfo.

Formation référencement et webmarketing

Venez chez Ranking Metrics vous former au référencement, à Google Analytics et aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (financement possible par OPCA, DIF...).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation agréé).

WebRankInfo sur Twitter

Suivez-moi sur Twitter !
WebRankInfo Twitter

Hébergement web

Hebergement web mutualise, dedie

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo. Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.

A partir de 1,90 EUR HT/mois.