Voir aussi
Études
Articles de WRI
- Redirections 302
- Google Toolbar 3
- Rel="NoFollow"...
- L'effet sandbox
- Foire aux backlinks
- Redirections sauvages
- Détournement de page
- Afficher un flux RSS
- Intégrer un flux RSS
- Le PR est-il mort ?
- Analyse référencement
- Google Data Centers
- L'algo de janvier 2004
- Google Deskbar
- Google Dance oct 2003
- GoogleBot change
- Calculatrice Google
- J'ai de la chance
- Google.fr, Google.com
- GoogleBot détaillé
- Bilan 2002
- Chanson au PR Noel
- Viewer, WebQuotes
- La vie d'une page
- Les labos de Google
- Google API
- Phénomène de société
- L'algorithme parfait
- La Google danse...
Autres articles
- Pénalités de Google
- Ma théorie sandbox
- Le secret des doubles-résultats
- Marketing viral
- Le projet Opquast
- Forum phpBB
- Sessions et langues
- Référencement multilingue
- Google en résumé
- Réécriture d'URL
- URL Rewriting
- URL Rewriting : intro
- Fichier .htaccess
PHP
La
vie d'une page sur le web :
Fresh Crawl, Deep Crawl, Google Dance
Par Olivier Duffez, le 22-11-2002
La vie d'une page sur le web est ponctuée en général de nombreuses visites, que ce soit de visiteurs (humains), de robots de moteurs de recherche voire de logiciel (aspirateurs de sites). Si la dernière catégorie n'intéresse pas vraiment le webmaster, il souhaite en général augmenter la fréquence des deux autres... Intéressons-nous aux visites des robots, par exemple celles de GoogleBot, le robot de Google.
Référencer des nouvelles pages
Après des heures de travail acharné, le webmaster publie enfin sa page sur son site. Il aura beau attendre des jours entiers, personne ne viendra la voir tant qu'il ne communiquera pas son adresse (URL). Pour la signaler à GoogleBot, il est possible d'aller remplir le formulaire de soumission d'URL, mais il vaut mieux tout simplement ajouter des liens vers cette page à partir de pages déjà indexées.
En fonction du nombre de liens et de l'importance des pages sur lesquelles figurent les liens (leur PageRank), GoogleBot va mettre entre 12h et 1 mois à venir voir cette nouvelle page. Il est facile de détecter son passage, soit en analysant les fichiers log, soit en utilisant RobotStats, un outil d'analyse temps réel des visites de GoogleBot.
En prenant le cas d'une page visitée dans les 12h qui suivent sa mise en ligne, il faut attendre en général encore quelques heures pour la trouver dans Google à partir d'une recherche par mots-clés. Ainsi, une nouvelle page liée par quelques pages à PageRank 5 ou 6 est détectée par Google en 12h, et ajoutée dans l'index en 24h !
La "prime de fraîcheur"
Vient ensuite une période faste pour cette nouvelle
page : dans les premiers jours qui suivent son apparition sur Google,
la page bénéficie d'une "prime de fraîcheur". A cet instant
précis, cette page n'est passée que dans la première moitié de l'algorithme
de Google, à savoir son indexation.
Tous les mots ont été épluchés, les balises HTML décortiquées. Par
contre Google n'a pas encore analysé la structure de liens vers
et à partir de cette page. Cette page n'a donc pas encore de PageRank,
même si la barre d'outils
Google peut en indiquer un (à ce moment-là ce n'est qu'une estimation).
Notez que dans le cas d'un nouveau site, la Toolbar reste bien grise
et indique "La page affichée n'est pas indexée
dans Google".
Grâce à cette "prime de fraîcheur", cette page a des chances
de sortir en meilleure position que d'autres pages présentes dans
Google depuis longtemps (et ayant un PageRank).
Même si cette idée peut paraître étonnante, elle présente l'avantage
de mettre en avant rapidement des pages d'actualité, puis de les
retirer pour revenir à l'algorithme classique.
Les meilleures choses ayant malheureusement toujours une fin, il est fréquent de voir disparaître cette page de Google, surtout si elle ne bénéficiait pas de nombreux liens (ou de liens issus de pages à faible PageRank). Il ne faut pas s'inquiéter, elle reviendra !
Google Dance
Quelques jours (ou semaines) après, la Google Dance commence et le monde des webmasters tremble... Tous les webmasters soucieux de leur référencement se sont inscrits à l'alerte Google Dance. Google a terminé les analyses de liens et surtout les calculs de PageRank, et entame la diffusion de son nouvel index sur ces serveurs. Notre nouvelle page qui avait disparu est maintenant visible sur www2.google.com : il y a encore de l'espoir.
La Google Dance est maintenant terminée, et la nouvelle page apparait de nouveau dans Google au cours d'une recherche par mots-clés. Malheureusement elle a perdu quelques places... et son PageRank n'est pas fameux. En plus cette fois il s'agit d'un véritable PageRank calculé : il va donc falloir optimiser cette page pour augmenter son PageRank.
Full Crawl
Dès la fin de la Google Dance, pendant que le webmaster se débrouille pour optimiser son site, GoogleBot passe en régime d'indexation massive (full crawl). Il faut s'attendre à recevoir de nombreuses visites de GoogleBot pendant quelques jours (en provenance de plusieurs adresses IP, puisqu'il s'agit d'un programme distribué sur de nombreuses machines). C'est une bonne période pour ajouter des pages sur son site, en prévision de la prochaine Google Dance...
La machine Google semble désormais bien rodée pour gérer l'indexation régulière de 3 milliards de pages. En plus de l'analyse des nouvelles pages, il ne faut pas oublier que Google doit aussi déterminer les millions de pages qu'il doit supprimer, suite à leur disparition ou leur déplacement.
Note : après réflexion, il serait plus juste de commencer par le Full Crawl, car c'est l'étape la plus importante pour qu'un site soit indexé. Tant que votre site n'a pas "subi" de Full Crawl, il ne peut pas être complètement indexé dans Google.
Publicités
- Hébergement web pro

- Pour un bon référencement, il faut un bon hébergeur.
- Testez Sivit, l'hébergeur choisi par WRI (garantie 30 jours satisfait ou remboursé) à partir de 1,90 EUR HT/mois
- Best seller
