Voir aussi
Études
Articles de WRI
- Redirections 302
- Google Toolbar 3
- Rel="NoFollow"...
- L'effet sandbox
- Foire aux backlinks
- Redirections sauvages
- Détournement de page
- Afficher un flux RSS
- Intégrer un flux RSS
- Le PR est-il mort ?
- Analyse référencement
- Google Data Centers
- L'algo de janvier 2004
- Google Deskbar
- Google Dance oct 2003
- GoogleBot change
- Calculatrice Google
- J'ai de la chance
- Google.fr, Google.com
- GoogleBot détaillé
- Bilan 2002
- Chanson au PR Noel
- Viewer, WebQuotes
- La vie d'une page
- Les labos de Google
- Google API
- Phénomène de société
- L'algorithme parfait
- La Google danse...
Autres articles
- Pénalités de Google
- Ma théorie sandbox
- Le secret des doubles-résultats
- Marketing viral
- Le projet Opquast
- Forum phpBB
- Sessions et langues
- Référencement multilingue
- Google en résumé
- Réécriture d'URL
- URL Rewriting
- URL Rewriting : intro
- Fichier .htaccess
PHP
Les changements de GoogleBot
Par Olivier Duffez, le 02-10-2003
Depuis environ 6 mois, Google a davantage changé ses méthodes que par le passé. Nous allons tenter de faire le point sur les modifications apportées à son fonctionnement ou son algorithme, en commençant par les techniques d'indexation utilisées par GoogleBot, le robot de Google. Pour rendre ceci plus concret, je suis parti d'un exemple...
Le système de diffusion d'actualités sur WebRankInfo
a été récemment modifié. Avant, on affichait sur la page d'accueil
les 4 dernières actualités, en entier ; chaque message comportait
un titre, un texte, la mention de la source et un lien. Ces actualités
étaient également disponibles dans les archives, avec une page par
mois.
Maintenant, sont affichées sur la page d'accueil seulement des introductions
de ces actualités, la suite étant accessible (via un lien depuis
la page d'accueil) sur une autre page dont l'URL ne change jamais
(même dans les archives). Il y a toujours une page d'archives par
mois.
Ce sytème a également perturbé les URL des anciennes archives, mais
j'ai mis une redirection
serveur dans mon fichier .htaccess.
Voici comment Google a réagi : d'un seul coup, plus
d'une centaine de nouvelles pages étaient créées sur WebRankInfo
vendredi 19/09/2003 vers 23h. Le logiciel RobotStats
permet d'analyser rapidement quel robot est venu, quand, sur quelles
pages.
Le lendemain, samedi 20/09/2003, 5 versions du robot GoogleBot
découvrent ces pages et commencent l'indexation. Les 5 dernières
actualités, liées directement depuis la page d'accueil, sont indexées.
Ensuite seront indexées la page d'accueil des archives, et quelques
pages d'archives mensuelles.
Ce qui est plus intéressant à remarquer, c'est que ces 5 robots
se sont répartis uniformément les 14 pages indexées (3 chacun sauf
le dernier 2 pages).
Dimanche 21/09/2003, on constate que la totalité des nouvelles pages
ajoutées 30 heures auparavant (environ 140 pages) ont été visitées
par 28 versions différentes (au sens des adresses IP) de GoogleBot.
Cependant, les seules pages présentes dans Google restent les 14
premières indexées samedi.
Lundi 22/09/2003, toutes les pages visitées par le robot sont
présentes dans l'index, avec l'indication de la date d'indexation
(cette date n'est indiquée que pendant 2 jours environ).
Toutes ces pages ont été indexées par la nouvelle forme de robots de Google, ceux qui indexent toutes les pages tous les jours... Il n'existe plus les 2 familles de robots (Fresh crawler et Full crawler) comme avant.
L'affichage du PageRank dans la barre d'outils de Google, ne se fait plus exactement comme avant. En effet, il fallait auparavant attendre la prochaine Google Dance pour que la barre affiche un PageRank (calculé). Avant cette Google Dance, la barre affichait souvent une estimation du PageRank basée sur celui du répertoire parent, en retirant 1 point sur 10.
- Aujourd'hui, quand une page est inconnue de Google, la barre n'affiche rien (elle est grise).
- Quand Google est venu l'indexer, mais qu'il n'y a pas encore eu de Google Dance, la barre affiche un PageRank 0 (elle est toute blanche)
- Quand Google a calculé son véritable PageRank, et que la Google Dance est arrivée, la barre affiche son PageRank réel (entre 0 et 10).
Par exemple, les 140 pages que Google vient d'indexer
sur WebRankInfo ont toutes un PageRank de 0, mais ne sont pas "pénalisées",
elles bénéficient au contraire d'une prime
de fraîcheur pendant quelques jours.
Attention : il existe des exceptions... ceci est le fonctionnement
le plus classique.
Conclusion : ce qui a changé :
- GoogleBot passe plus fréquemment indexer les pages.
- Il n'existe plus 2 catégories de robots (Fresh crawler et Full crawler) mais un seul qui remplit les deux rôles. Il n'est plus nécessaire d'attendre 1 mois que le robot du Full Crawl vienne indexer un site en profondeur.
- L'affichage du PageRank sur la barre d'outils est plus standard, puisqu'il n'y a plus d'affichage de PageRank estimé.
Publicités
- Hébergement web pro

- Pour un bon référencement, il faut un bon hébergeur.
- Testez Sivit, l'hébergeur choisi par WRI (garantie 30 jours satisfait ou remboursé) à partir de 1,90 EUR HT/mois
- Best seller
