Fonctionnement passé et présent de Google ?

WRInaute discret
Bonjour,
j'ai lu l'article sivant : (source : Philippe Yonnet (webmaster hub)


Fonctionnement passé de Google

Google, par le passé, gérait une mise à jour cyclique, chaque cycle durait à peu près un mois.

Les cycles se déroulaient selon les étapes principales suivantes :

- le deepcrawl (indexation profonde) : le robot (spider) d’indexation de Google visite les sites qui sont recensés dans sa base d’indexation, et en aspire toutes les pages (sauf pour les sites avec faible pagerank ou trop nouveaux, pour lesquels la profondeur d’indexation était parfois limitée). Cette phase dure une semaine à dix jours

- le calcul du pagerank. Cette phase (que personne n’a jamais observée en dehors de Google) durait probablement également plusieurs jours.

- la google dance : le nouvel index est créé sur un datacenter, les données sont ensuite répliquées sur les autres datacenters. A cette occasion, sont ajoutés de nouveaux filtres, soit avant, soit pendant la google dance. Le nouvel index est stabilisé en quelques jours.

L’un des effets de ces mises à jours cycliques, était que l’index était figé pendant plusieurs semaines. De plus, si une page était ajoutée le lendemain du passage du deepcrawler, elle risquait de n’apparaître dans l’index que dans un délai de huit à dix semaines.

Pour permettre à de nouvelles pages de s’intégrer dans l’index, Google a mis en place un système d’indexation temporaire, le freshcrawl :
Entre deux dances, un freshbot vient repérer les pages nouvelles dans les sites déjà indexés ces pages sont ajoutées à l’index, mais n’ont pas de pagerank.

- Points sur les changements observés depuis le printemps 2003 -

Fonctionnement actuel de Google

Les changements constatés dans le fonctionnement du moteur concernent essentiellement trois domaines :

- le comportement du spider Googlebot
- les mises à jour fréquentes et quasi continues
- l’algorithme de classement

Le comportement du spider Googlebot :

Fini les deux familles de robots "deepbot" et "freshbot", il n’y a plus qu’un seul spider : le Googlebot, chargé de toutes les tâches, qu’il s’agisse d’une première indexation, ou de mises à jour. Son comportement a changé : sa fréquence de passage est devenue très variée en fonction des sites.

Par ailleurs, il a muté en un browser beaucoup plus évolué maintenant : on pouvait comparer jadis ce que voyait un deepbot à une page vue avec Lynx, mais aujourd’hui, il peut suivre des liens en javascript, et prendre en compte beaucoup plus de balises qu’autrefois.

On peut dire que le comportement de ce robot est devenu typique des spiders chargés de tenir à jour des index de type ouvert (indexation permanente : les spiders n’indexent plus une liste de sites du premier au dernier, ils crawlent sans jamais avoir fini de mettre à jour l’index, en choisissant les sites à indexer par ordre de priorité.

Ce Googlebot unique est aussi maintenant accompagné de ‘cousins’, chargés d’indexer les pages pour les nouveaux services ouverts par Google, et notamment :
- le robot de Googlenews
- le robot du système AdSense


Les mises à jour fréquentes et quasi continuelles

L’augmentation de la fréquence des mises à jour a été constatée pour la première fois en septembre 2003 : Deux dances en un seul mois !
Depuis, il s’est confirmé que le cycle mensuel avait été abandonné au profit de mises à jour beaucoup plus fréquentes.

Le nouveau système de mise à jour de l’index a dérouté pas mal de référenceurs et de webmasters, car il semble avoir beaucoup évolué au cours des derniers mois.

En fait, à l’heure actuelle, il semble que plusieurs phénomènes se superposent :
- l’indexation de nouvelles pages est permanente : les pages non présentes précédemment dans l’index et "ramenées" par Googlebot apparaissent rapidement dans les pages de résultats, avec un classement proche de leur classement définitif.

Plus de prime de fraîcheur pour ces pages.
- des mises à jour partielles ont lieu régulièrement
- des mises à jour plus profondes ont lieu de temps à autre (toutes les deux semaines : périodicité difficile à déterminer à cause du manque de recul)
- la mise à jour des backlinks et des pageranks visibles dans la googlebar a lieu plus fréquemment qu’avant (toutes les deux à trois semaines), par contre ces "googledance" ont pris un tour étrange, car elles ne s’accompagnent pas toujours de changements dans les pages de résultats (comme si cette mise à jour reflétait des changements déjà intervenus dans l’index)



Les changements dans l’algorithme de classement

C’est sans doute le changement qui a été le plus remarqué, car il a conduit à la chute dans les profondeurs du classement de nombreux sites qui squattaient les premières positions depuis des mois, voire des années... Le changement d’algorithme a été graduel entre mars 2003 et aujourd’hui, avec un pic spectaculaire en novembre 2003, à l’occasion de la google dance appelée Florida, dont les effets dévastateurs pour certains sites ont sérieusement inquiété les webmasters et (surtout) les référenceurs professionnels



Mes questions sont les suviantes :

- Est ce que ce fonctionnement vous parait juste ?
- Quand il parle de : Fini les deux familles de robots "deepbot" et "freshbot", il n’y a plus qu’un seul spider : le Googlebot. -> par deepbot et freshbot il parle du deepcrawl et freshcrawl ?
 
Nouveau WRInaute
- Est ce que ce fonctionnement vous parait juste ?

=> Juste ou pas? Si le sens de ta question est "est-ce que ce fonctionnement est un bon fonctionnement? " honnêtement, le mieux est de se placer du point de vue du surfer. Ce sont eux au final qui sanctionneront.
Il y a quelques mois, lorsque je cherchais quelque chose sur google, je trouvais beaucoup plus vite que maintenant donc j'ai quand même l'impression que la pertinence est moindre même si ça reste une impression toute personnelle et que ça veut pas dire que c'est pour tout le monde pareil. J'ai l'impression que google a lutté plus efficacement contre le spam, mais je me demande si cette lutte n'a ne les a pas conduit à moins travailler l'aspect "pertinence" ?
C'est une impression toute personnelle mais, je tiens à le préciser. En tout cas ça m'amène à utiliser des alternatives comme yahoo dans mes recherches alors qu'avant je n'utilisais que google parce que je trouvais toujours et rapidement.

Maintenant... on peut dire que ce fonctionnement peut être juste dans la mesure où les mises à jour sont permanentes et qu'elles laissent au nouveaux, hors effet sandbox, la possibilité d'être indexés + vite.

- Quand il parle de : Fini les deux familles de robots "deepbot" et "freshbot", il n’y a plus qu’un seul spider : le Googlebot. -> par deepbot et freshbot il parle du deepcrawl et freshcrawl ?

Oui, mais l'indexation et les mises à jour semblent être permanentes donc pas besoin de différencier les crawls, pas de fresh, pas de deep, juste un bot qui a les 2 fonctions mais en permanence, c'est ce qu'il a voulu dire je pense.
 
WRInaute impliqué
Je n'ai pas lu car je suis pressé ce matin, mais ca doit faire 3 semaines que GG ne met plus rééllement son classement à jour ... Il y a juste un mini effet yo-yo du au zapping de DC. Et vous devez avoir remarqué que depuis le 20 Avril il utilise dans ses résultats de recherches des liens menant vers les sites trouvés du type https://www.google.fr/url?sa=U&start=x&q ... com/&e=xxx

Cela doit probablement servir à analyser comportalement les habitudes des gens, tout comme la pelleté d'outil qu'il lance ces temps-ci (Le GWA notamment) ... Le tout officieusement pour améliorer ses résultats de manière humaine et officielement pour bien autre chose ;)

Je suis d'ailleurs presque sûr que la GG bar avait ce dessein aussi mais vu qu'on avait le choix entre envoyer des données à GG et ne pas en envoyer, beaucoup ont préféré conserver l'anonymat et du côté de Google il fallait bien trouver autre chose pour observer le comportement des gens ... Alors autant leur mettre entre les mains un outil qui ne fonctionne que s'il l'on envoye des données à GG ...

Mais bon ... Un accelerateur web c'est bien gentil, certains vont l'utiliser mais ca reste gadget il va falloir donc trouver quelque chose que tout le monde utilisera au quotidien ...

*Soupire* Vivement le Big brother eh pardon le Gbrowser :wink:
 
Nouveau WRInaute
dolbysound a dit:
Chien a dit:
- Est ce que ce fonctionnement vous parait juste ?

=> Juste ou pas? Si le sens de ta question est "est-ce que ce ..

Non, je voulais dire, est ce la le véritable fonctionnement de google :oops:

ha ok :) ... Je pense que c'est très juste alors, je pense que ce que met en exergue cette analyse est juste : c'est bien comme cela que le moteur fonctionnait, c'est bien comme cela qu'il fonctionne.

De savoir si les résultats sont plus justes sur le plan de la sémantique ou au sens de caliméro, c'est une autre histoire... :D
 
Discussions similaires
Haut