WRInaute discret
Bonjour,
j'ai lu l'article sivant : (source : Philippe Yonnet (webmaster hub)
Fonctionnement passé de Google
Google, par le passé, gérait une mise à jour cyclique, chaque cycle durait à peu près un mois.
Les cycles se déroulaient selon les étapes principales suivantes :
- le deepcrawl (indexation profonde) : le robot (spider) d’indexation de Google visite les sites qui sont recensés dans sa base d’indexation, et en aspire toutes les pages (sauf pour les sites avec faible pagerank ou trop nouveaux, pour lesquels la profondeur d’indexation était parfois limitée). Cette phase dure une semaine à dix jours
- le calcul du pagerank. Cette phase (que personne n’a jamais observée en dehors de Google) durait probablement également plusieurs jours.
- la google dance : le nouvel index est créé sur un datacenter, les données sont ensuite répliquées sur les autres datacenters. A cette occasion, sont ajoutés de nouveaux filtres, soit avant, soit pendant la google dance. Le nouvel index est stabilisé en quelques jours.
L’un des effets de ces mises à jours cycliques, était que l’index était figé pendant plusieurs semaines. De plus, si une page était ajoutée le lendemain du passage du deepcrawler, elle risquait de n’apparaître dans l’index que dans un délai de huit à dix semaines.
Pour permettre à de nouvelles pages de s’intégrer dans l’index, Google a mis en place un système d’indexation temporaire, le freshcrawl :
Entre deux dances, un freshbot vient repérer les pages nouvelles dans les sites déjà indexés ces pages sont ajoutées à l’index, mais n’ont pas de pagerank.
- Points sur les changements observés depuis le printemps 2003 -
Fonctionnement actuel de Google
Les changements constatés dans le fonctionnement du moteur concernent essentiellement trois domaines :
- le comportement du spider Googlebot
- les mises à jour fréquentes et quasi continues
- l’algorithme de classement
Le comportement du spider Googlebot :
Fini les deux familles de robots "deepbot" et "freshbot", il n’y a plus qu’un seul spider : le Googlebot, chargé de toutes les tâches, qu’il s’agisse d’une première indexation, ou de mises à jour. Son comportement a changé : sa fréquence de passage est devenue très variée en fonction des sites.
Par ailleurs, il a muté en un browser beaucoup plus évolué maintenant : on pouvait comparer jadis ce que voyait un deepbot à une page vue avec Lynx, mais aujourd’hui, il peut suivre des liens en javascript, et prendre en compte beaucoup plus de balises qu’autrefois.
On peut dire que le comportement de ce robot est devenu typique des spiders chargés de tenir à jour des index de type ouvert (indexation permanente : les spiders n’indexent plus une liste de sites du premier au dernier, ils crawlent sans jamais avoir fini de mettre à jour l’index, en choisissant les sites à indexer par ordre de priorité.
Ce Googlebot unique est aussi maintenant accompagné de ‘cousins’, chargés d’indexer les pages pour les nouveaux services ouverts par Google, et notamment :
- le robot de Googlenews
- le robot du système AdSense
Les mises à jour fréquentes et quasi continuelles
L’augmentation de la fréquence des mises à jour a été constatée pour la première fois en septembre 2003 : Deux dances en un seul mois !
Depuis, il s’est confirmé que le cycle mensuel avait été abandonné au profit de mises à jour beaucoup plus fréquentes.
Le nouveau système de mise à jour de l’index a dérouté pas mal de référenceurs et de webmasters, car il semble avoir beaucoup évolué au cours des derniers mois.
En fait, à l’heure actuelle, il semble que plusieurs phénomènes se superposent :
- l’indexation de nouvelles pages est permanente : les pages non présentes précédemment dans l’index et "ramenées" par Googlebot apparaissent rapidement dans les pages de résultats, avec un classement proche de leur classement définitif.
Plus de prime de fraîcheur pour ces pages.
- des mises à jour partielles ont lieu régulièrement
- des mises à jour plus profondes ont lieu de temps à autre (toutes les deux semaines : périodicité difficile à déterminer à cause du manque de recul)
- la mise à jour des backlinks et des pageranks visibles dans la googlebar a lieu plus fréquemment qu’avant (toutes les deux à trois semaines), par contre ces "googledance" ont pris un tour étrange, car elles ne s’accompagnent pas toujours de changements dans les pages de résultats (comme si cette mise à jour reflétait des changements déjà intervenus dans l’index)
Les changements dans l’algorithme de classement
C’est sans doute le changement qui a été le plus remarqué, car il a conduit à la chute dans les profondeurs du classement de nombreux sites qui squattaient les premières positions depuis des mois, voire des années... Le changement d’algorithme a été graduel entre mars 2003 et aujourd’hui, avec un pic spectaculaire en novembre 2003, à l’occasion de la google dance appelée Florida, dont les effets dévastateurs pour certains sites ont sérieusement inquiété les webmasters et (surtout) les référenceurs professionnels
Mes questions sont les suviantes :
- Est ce que ce fonctionnement vous parait juste ?
- Quand il parle de : Fini les deux familles de robots "deepbot" et "freshbot", il n’y a plus qu’un seul spider : le Googlebot. -> par deepbot et freshbot il parle du deepcrawl et freshcrawl ?
j'ai lu l'article sivant : (source : Philippe Yonnet (webmaster hub)
Fonctionnement passé de Google
Google, par le passé, gérait une mise à jour cyclique, chaque cycle durait à peu près un mois.
Les cycles se déroulaient selon les étapes principales suivantes :
- le deepcrawl (indexation profonde) : le robot (spider) d’indexation de Google visite les sites qui sont recensés dans sa base d’indexation, et en aspire toutes les pages (sauf pour les sites avec faible pagerank ou trop nouveaux, pour lesquels la profondeur d’indexation était parfois limitée). Cette phase dure une semaine à dix jours
- le calcul du pagerank. Cette phase (que personne n’a jamais observée en dehors de Google) durait probablement également plusieurs jours.
- la google dance : le nouvel index est créé sur un datacenter, les données sont ensuite répliquées sur les autres datacenters. A cette occasion, sont ajoutés de nouveaux filtres, soit avant, soit pendant la google dance. Le nouvel index est stabilisé en quelques jours.
L’un des effets de ces mises à jours cycliques, était que l’index était figé pendant plusieurs semaines. De plus, si une page était ajoutée le lendemain du passage du deepcrawler, elle risquait de n’apparaître dans l’index que dans un délai de huit à dix semaines.
Pour permettre à de nouvelles pages de s’intégrer dans l’index, Google a mis en place un système d’indexation temporaire, le freshcrawl :
Entre deux dances, un freshbot vient repérer les pages nouvelles dans les sites déjà indexés ces pages sont ajoutées à l’index, mais n’ont pas de pagerank.
- Points sur les changements observés depuis le printemps 2003 -
Fonctionnement actuel de Google
Les changements constatés dans le fonctionnement du moteur concernent essentiellement trois domaines :
- le comportement du spider Googlebot
- les mises à jour fréquentes et quasi continues
- l’algorithme de classement
Le comportement du spider Googlebot :
Fini les deux familles de robots "deepbot" et "freshbot", il n’y a plus qu’un seul spider : le Googlebot, chargé de toutes les tâches, qu’il s’agisse d’une première indexation, ou de mises à jour. Son comportement a changé : sa fréquence de passage est devenue très variée en fonction des sites.
Par ailleurs, il a muté en un browser beaucoup plus évolué maintenant : on pouvait comparer jadis ce que voyait un deepbot à une page vue avec Lynx, mais aujourd’hui, il peut suivre des liens en javascript, et prendre en compte beaucoup plus de balises qu’autrefois.
On peut dire que le comportement de ce robot est devenu typique des spiders chargés de tenir à jour des index de type ouvert (indexation permanente : les spiders n’indexent plus une liste de sites du premier au dernier, ils crawlent sans jamais avoir fini de mettre à jour l’index, en choisissant les sites à indexer par ordre de priorité.
Ce Googlebot unique est aussi maintenant accompagné de ‘cousins’, chargés d’indexer les pages pour les nouveaux services ouverts par Google, et notamment :
- le robot de Googlenews
- le robot du système AdSense
Les mises à jour fréquentes et quasi continuelles
L’augmentation de la fréquence des mises à jour a été constatée pour la première fois en septembre 2003 : Deux dances en un seul mois !
Depuis, il s’est confirmé que le cycle mensuel avait été abandonné au profit de mises à jour beaucoup plus fréquentes.
Le nouveau système de mise à jour de l’index a dérouté pas mal de référenceurs et de webmasters, car il semble avoir beaucoup évolué au cours des derniers mois.
En fait, à l’heure actuelle, il semble que plusieurs phénomènes se superposent :
- l’indexation de nouvelles pages est permanente : les pages non présentes précédemment dans l’index et "ramenées" par Googlebot apparaissent rapidement dans les pages de résultats, avec un classement proche de leur classement définitif.
Plus de prime de fraîcheur pour ces pages.
- des mises à jour partielles ont lieu régulièrement
- des mises à jour plus profondes ont lieu de temps à autre (toutes les deux semaines : périodicité difficile à déterminer à cause du manque de recul)
- la mise à jour des backlinks et des pageranks visibles dans la googlebar a lieu plus fréquemment qu’avant (toutes les deux à trois semaines), par contre ces "googledance" ont pris un tour étrange, car elles ne s’accompagnent pas toujours de changements dans les pages de résultats (comme si cette mise à jour reflétait des changements déjà intervenus dans l’index)
Les changements dans l’algorithme de classement
C’est sans doute le changement qui a été le plus remarqué, car il a conduit à la chute dans les profondeurs du classement de nombreux sites qui squattaient les premières positions depuis des mois, voire des années... Le changement d’algorithme a été graduel entre mars 2003 et aujourd’hui, avec un pic spectaculaire en novembre 2003, à l’occasion de la google dance appelée Florida, dont les effets dévastateurs pour certains sites ont sérieusement inquiété les webmasters et (surtout) les référenceurs professionnels
Mes questions sont les suviantes :
- Est ce que ce fonctionnement vous parait juste ?
- Quand il parle de : Fini les deux familles de robots "deepbot" et "freshbot", il n’y a plus qu’un seul spider : le Googlebot. -> par deepbot et freshbot il parle du deepcrawl et freshcrawl ?