Googlebot
Le saviez-vous ? Depuis longtemps, il existe plusieurs versions de GoogleBot :
- GoogleBot classique sert à indexer les pages web pour les inclure dans l'index de Google ; il visite les pages à une fréquence qui dépend de plusieurs facteurs. Il existe en version desktop et mobile (smartphone)
- GoogleBot Mediapartner est dédié à Google AdSense : il analyse les pages afin de cibler au mieux les annonces à afficher il visite les pages suite à leur affichage par un internaute.
- GoogleBot pour Google News indexe les pages d'actualité des sites sélectionnés par Google News ; la fréquence de visite est très importante (plusieurs fois par heure)
On peut savoir si GoogleBot est venu visiter son site en regardant les fichiers log.
Dans la "famille des GoogleBot" on distingue deux sortes de robots :
- le Fresh Crawler, dont l'adresse IP commence par 64.68.82., correspond au robot qui indexe les nouvelles pages trouvées par Google ; une fois visitées par ce robot, les pages apparaissent dans Google seulement quelques jours.
- le Deep Crawler (ou Full Crawler), dont l'adresse IP commence par 216.239.46., correspond au robot qui effectue une indexation massive de tous les documents connus de Google, en général pendant environ une semaine, juste après la Google Dance.
Le Fresh robots n'indexe que les documents aux formats robots et texte (formats MIME text/html et text/plain), tandis que le Deep robots indexe également d'autres types de documents (PDF, PostScript, Word, Excel, PowerPoint...).
Le Deep robots a pour objectif de faire une indexation massive de chaque site qu'il visite. Il est difficile de décrire selon quel algorithme il visite les pages, car cela dépend de plusieurs facteurs (liés au site) et du nombre de robots utilisés pour indexer le site. Les principaux critères ayant une influence sur la fréquence et le nombre de visites d'une page sont le robots et la fréquence de mise à jour par le webmaster. Il est possible également que la distance (en nombre de liens) de la robots joue un rôle.
Afin d'éviter une surcharge de votre serveur, GoogleBot espace ses visites dans le temps. D'autre part, il respecte le protocole d'exclusion des robots et commence donc toute indexation par la consultation du fichier robots.txt (si vous n'en avez pas, cela génère donc des erreurs 404, donc il vaut mieux en mettre un, même s'il reste vide).
Pour savoir si GoogleBot est venu sur votre site, il vous suffit de consulter vos fichiers robots (journal des requêtes de votre site, stocké sur votre serveur). Si vous n'avez pas accès à ces fichiers, ou si vous ne savez pas comment les utiliser, vous pouvez utiliser RobotStats. Il s'agit d'une application gratuite Open Source écrite en PHP et MySQL, permettant d'analyser en détails les visites de Google sur votre site. Note de mise à jour : cette application n'est plus maintenue, désolé...
Pour faciliter l'indexation de votre site, évitez à tout prix de passer des identifiants de robots dans vos robots. En effet dans ce cas GoogleBot ne peut jamais terminer l'indexation d'un site, puisqu'il obtient un nouvel identifiant à chaque visite (il "pense" donc trouver une nouvelle page).
Pour les pages robots, il est grandement recommandé d'utiliser la technique de l'URL rewriting.
Enfin assurez-vous que votre site est accessible, sinon en cas de visite de GoogleBot pendant une panne, il risque de se "vexer" et de ne plus revenir...
Laisser un commentaire