Voir aussi
Études
Articles de WRI
- Redirections 302
- Google Toolbar 3
- Rel="NoFollow"...
- L'effet sandbox
- Foire aux backlinks
- Redirections sauvages
- Détournement de page
- Afficher un flux RSS
- Intégrer un flux RSS
- Le PR est-il mort ?
- Analyse référencement
- Google Data Centers
- L'algo de janvier 2004
- Google Deskbar
- Google Dance oct 2003
- GoogleBot change
- Calculatrice Google
- J'ai de la chance
- Google.fr, Google.com
- GoogleBot détaillé
- Bilan 2002
- Chanson au PR Noel
- Viewer, WebQuotes
- La vie d'une page
- Les labos de Google
- Google API
- Phénomène de société
- L'algorithme parfait
- La Google danse...
Autres articles
- Pénalités de Google
- Ma théorie sandbox
- Le secret des doubles-résultats
- Marketing viral
- Le projet Opquast
- Forum phpBB
- Sessions et langues
- Référencement multilingue
- Google en résumé
- Réécriture d'URL
- URL Rewriting
- URL Rewriting : intro
- Fichier .htaccess
PHP
Googlebot expliqué en détails
Par Olivier Duffez, le 21-02-2003
GoogleBot
est le nom du robot d'indexation de Google. Ce robot est programmé
pour fonctionner sur des centaines de machines à la fois, avec des
adresses IP différentes. Il faut dire qu'il a 3 milliards de documents
à mettre à jour régulièrement, et des millions de nouveaux à découvrir...
Dans la "famille des GoogleBot" on distingue deux sortes de robots
:
- le Fresh Crawler, dont l'adresse IP commence par 64.68.82., correspond au robot qui indexe les nouvelles pages trouvées par Google ; une fois visitées par ce robot, les pages apparaissent dans Google seulement quelques jours.
- le Deep Crawler (ou Full Crawler), dont l'adresse IP commence par 216.239.46., correspond au robot qui effectue une indexation massive de tous les documents connus de Google, en général pendant environ une semaine, juste après la Google Dance.
Le Fresh Crawler n'indexe que les documents aux
formats HTML et texte (formats MIME text/html et text/plain), tandis
que le Deep Crawler indexe également d'autres types de documents
(PDF, PostScript, Word, Excel, PowerPoint...).
Le Deep Crawler a pour objectif de faire une indexation massive
de chaque site qu'il visite. Il est difficile de décrire selon quel
algorithme il visite les pages, car cela dépend de plusieurs facteurs
(liés au site) et du nombre de robots utilisés pour indexer le site.
Les principaux critères ayant une influence sur la fréquence et
le nombre de visites d'une page sont le PageRank et la fréquence
de mise à jour par le webmaster. Il est possible également que la
distance (en nombre de liens) de la page d'accueil joue un rôle.
Afin d'éviter une surcharge de votre serveur, GoogleBot espace ses
visites dans le temps. D'autre part, il respecte le protocole d'exclusion
des robots et commence donc toute indexation par la consultation
du fichier robots.txt
(si vous n'en avez pas, cela génère donc des erreurs 404, donc il
vaut mieux en mettre un, même s'il reste vide).
Pour savoir si GoogleBot est venu sur votre site, il vous suffit de consulter vos fichiers log (journal des requêtes de votre site, stocké sur votre serveur). Si vous n'avez pas accès à ces fichiers, ou si vous ne savez pas comment les utiliser, vous pouvez utiliser RobotStats. Il s'agit d'une application gratuite Open Source écrite en PHP et MySQL, permettant d'analyser en détails les visites de Google sur votre site. A partir de la version 2.0, il sera bientôt possible de gérer autant de robots que vous le voulez !
Pour faciliter l'indexation de votre site, évitez
à tout prix de passer des identifiants de session dans vos URL.
En effet dans ce cas GoogleBot ne peut jamais terminer l'indexation
d'un site, puisqu'il obtient un nouvel identifiant à chaque visite
(il "pense" donc trouver une nouvelle page).
Pour les pages dynamiques, il est grandement recommandé d'utiliser
la technique de l'URL rewriting.
Enfin assurez-vous que votre site est accessible, sinon en cas de
visite de GoogleBot pendant une panne, il risque de se "vexer" et
de ne plus revenir...
Publicités
- Hébergement web pro

- Pour un bon référencement, il faut un bon hébergeur.
- Testez Sivit, l'hébergeur choisi par WRI (garantie 30 jours satisfait ou remboursé) à partir de 1,90 EUR HT/mois
- Best seller
