Fonctionnement passé et présent de Google ?

Discussion dans 'Crawl et indexation Google, sitemaps' créé par dolbysound, 9 Mai 2005.

  1. dolbysound
    dolbysound WRInaute discret
    Inscrit:
    7 Mai 2005
    Messages:
    147
    J'aime reçus:
    0
    Bonjour,
    j'ai lu l'article sivant : (source : Philippe Yonnet (webmaster hub)


    Fonctionnement passé de Google

    Google, par le passé, gérait une mise à jour cyclique, chaque cycle durait à peu près un mois.

    Les cycles se déroulaient selon les étapes principales suivantes :

    - le deepcrawl (indexation profonde) : le robot (spider) d’indexation de Google visite les sites qui sont recensés dans sa base d’indexation, et en aspire toutes les pages (sauf pour les sites avec faible pagerank ou trop nouveaux, pour lesquels la profondeur d’indexation était parfois limitée). Cette phase dure une semaine à dix jours

    - le calcul du PageRank. Cette phase (que personne n’a jamais observée en dehors de Google) durait probablement également plusieurs jours.

    - la google dance : le nouvel index est créé sur un datacenter, les données sont ensuite répliquées sur les autres datacenters. A cette occasion, sont ajoutés de nouveaux filtres, soit avant, soit pendant la google dance. Le nouvel index est stabilisé en quelques jours.

    L’un des effets de ces mises à jours cycliques, était que l’index était figé pendant plusieurs semaines. De plus, si une page était ajoutée le lendemain du passage du deepcrawler, elle risquait de n’apparaître dans l’index que dans un délai de huit à dix semaines.

    Pour permettre à de nouvelles pages de s’intégrer dans l’index, Google a mis en place un système d’indexation temporaire, le freshcrawl :
    Entre deux dances, un freshbot vient repérer les pages nouvelles dans les sites déjà indexés ces pages sont ajoutées à l’index, mais n’ont pas de pagerank.

    - Points sur les changements observés depuis le printemps 2003 -

    Fonctionnement actuel de Google

    Les changements constatés dans le fonctionnement du moteur concernent essentiellement trois domaines :

    - le comportement du spider Googlebot
    - les mises à jour fréquentes et quasi continues
    - l’algorithme de classement

    Le comportement du spider Googlebot :

    Fini les deux familles de robots "deepbot" et "freshbot", il n’y a plus qu’un seul spider : le Googlebot, chargé de toutes les tâches, qu’il s’agisse d’une première indexation, ou de mises à jour. Son comportement a changé : sa fréquence de passage est devenue très variée en fonction des sites.

    Par ailleurs, il a muté en un browser beaucoup plus évolué maintenant : on pouvait comparer jadis ce que voyait un deepbot à une page vue avec Lynx, mais aujourd’hui, il peut suivre des liens en javascript, et prendre en compte beaucoup plus de balises qu’autrefois.

    On peut dire que le comportement de ce robot est devenu typique des spiders chargés de tenir à jour des index de type ouvert (indexation permanente : les spiders n’indexent plus une liste de sites du premier au dernier, ils crawlent sans jamais avoir fini de mettre à jour l’index, en choisissant les sites à indexer par ordre de priorité.

    Ce Googlebot unique est aussi maintenant accompagné de ‘cousins’, chargés d’indexer les pages pour les nouveaux services ouverts par Google, et notamment :
    - le robot de Googlenews
    - le robot du système AdSense


    Les mises à jour fréquentes et quasi continuelles

    L’augmentation de la fréquence des mises à jour a été constatée pour la première fois en septembre 2003 : Deux dances en un seul mois !
    Depuis, il s’est confirmé que le cycle mensuel avait été abandonné au profit de mises à jour beaucoup plus fréquentes.

    Le nouveau système de mise à jour de l’index a dérouté pas mal de référenceurs et de webmasters, car il semble avoir beaucoup évolué au cours des derniers mois.

    En fait, à l’heure actuelle, il semble que plusieurs phénomènes se superposent :
    - l’indexation de nouvelles pages est permanente : les pages non présentes précédemment dans l’index et "ramenées" par Googlebot apparaissent rapidement dans les pages de résultats, avec un classement proche de leur classement définitif.

    Plus de prime de fraîcheur pour ces pages.
    - des mises à jour partielles ont lieu régulièrement
    - des mises à jour plus profondes ont lieu de temps à autre (toutes les deux semaines : périodicité difficile à déterminer à cause du manque de recul)
    - la mise à jour des backlinks et des pageranks visibles dans la googlebar a lieu plus fréquemment qu’avant (toutes les deux à trois semaines), par contre ces "googledance" ont pris un tour étrange, car elles ne s’accompagnent pas toujours de changements dans les pages de résultats (comme si cette mise à jour reflétait des changements déjà intervenus dans l’index)



    Les changements dans l’algorithme de classement

    C’est sans doute le changement qui a été le plus remarqué, car il a conduit à la chute dans les profondeurs du classement de nombreux sites qui squattaient les premières positions depuis des mois, voire des années... Le changement d’algorithme a été graduel entre mars 2003 et aujourd’hui, avec un pic spectaculaire en novembre 2003, à l’occasion de la google dance appelée Florida, dont les effets dévastateurs pour certains sites ont sérieusement inquiété les webmasters et (surtout) les référenceurs professionnels



    Mes questions sont les suviantes :

    - Est ce que ce fonctionnement vous parait juste ?
    - Quand il parle de : Fini les deux familles de robots "deepbot" et "freshbot", il n’y a plus qu’un seul spider : le Googlebot. -> par deepbot et freshbot il parle du deepcrawl et freshcrawl ?
     
  2. RémyT
    RémyT WRInaute discret
    Inscrit:
    22 Mars 2005
    Messages:
    96
    J'aime reçus:
    0
    C'est toujours bien de fournir la source d'un article...
     
  3. dolbysound
    dolbysound WRInaute discret
    Inscrit:
    7 Mai 2005
    Messages:
    147
    J'aime reçus:
    0

    chose faite
     
  4. Chien
    Chien Nouveau WRInaute
    Inscrit:
    4 Juin 2004
    Messages:
    42
    J'aime reçus:
    0
    - Est ce que ce fonctionnement vous parait juste ?

    => Juste ou pas? Si le sens de ta question est "est-ce que ce fonctionnement est un bon fonctionnement? " honnêtement, le mieux est de se placer du point de vue du surfer. Ce sont eux au final qui sanctionneront.
    Il y a quelques mois, lorsque je cherchais quelque chose sur google, je trouvais beaucoup plus vite que maintenant donc j'ai quand même l'impression que la pertinence est moindre même si ça reste une impression toute personnelle et que ça veut pas dire que c'est pour tout le monde pareil. J'ai l'impression que google a lutté plus efficacement contre le spam, mais je me demande si cette lutte n'a ne les a pas conduit à moins travailler l'aspect "pertinence" ?
    C'est une impression toute personnelle mais, je tiens à le préciser. En tout cas ça m'amène à utiliser des alternatives comme yahoo dans mes recherches alors qu'avant je n'utilisais que google parce que je trouvais toujours et rapidement.

    Maintenant... on peut dire que ce fonctionnement peut être juste dans la mesure où les mises à jour sont permanentes et qu'elles laissent au nouveaux, hors effet sandbox, la possibilité d'être indexés + vite.

    - Quand il parle de : Fini les deux familles de robots "deepbot" et "freshbot", il n’y a plus qu’un seul spider : le Googlebot. -> par deepbot et freshbot il parle du deepcrawl et freshcrawl ?

    Oui, mais l'indexation et les mises à jour semblent être permanentes donc pas besoin de différencier les crawls, pas de fresh, pas de deep, juste un bot qui a les 2 fonctions mais en permanence, c'est ce qu'il a voulu dire je pense.
     
  5. dolbysound
    dolbysound WRInaute discret
    Inscrit:
    7 Mai 2005
    Messages:
    147
    J'aime reçus:
    0
    Non, je voulais dire, est ce la le véritable fonctionnement de google :oops:
     
  6. dolbysound
    dolbysound WRInaute discret
    Inscrit:
    7 Mai 2005
    Messages:
    147
    J'aime reçus:
    0
    mais il existe toujours bien un fresh crawler et deep crawler mais integre dans le google bot ?
     
  7. rituel
    rituel WRInaute impliqué
    Inscrit:
    15 Mars 2003
    Messages:
    897
    J'aime reçus:
    0
    Je n'ai pas lu car je suis pressé ce matin, mais ca doit faire 3 semaines que GG ne met plus rééllement son classement à jour ... Il y a juste un mini effet yo-yo du au zapping de DC. Et vous devez avoir remarqué que depuis le 20 Avril il utilise dans ses résultats de recherches des liens menant vers les sites trouvés du type https://www.google.fr/url?sa=U&start=x&q ... com/&e=xxx

    Cela doit probablement servir à analyser comportalement les habitudes des gens, tout comme la pelleté d'outil qu'il lance ces temps-ci (Le GWA notamment) ... Le tout officieusement pour améliorer ses résultats de manière humaine et officielement pour bien autre chose ;)

    Je suis d'ailleurs presque sûr que la GG bar avait ce dessein aussi mais vu qu'on avait le choix entre envoyer des données à GG et ne pas en envoyer, beaucoup ont préféré conserver l'anonymat et du côté de Google il fallait bien trouver autre chose pour observer le comportement des gens ... Alors autant leur mettre entre les mains un outil qui ne fonctionne que s'il l'on envoye des données à GG ...

    Mais bon ... Un accelerateur web c'est bien gentil, certains vont l'utiliser mais ca reste gadget il va falloir donc trouver quelque chose que tout le monde utilisera au quotidien ...

    *Soupire* Vivement le Big brother eh pardon le Gbrowser :wink:
     
  8. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    31 738
    J'aime reçus:
    336
    Et le lien :(
     
  9. Chien
    Chien Nouveau WRInaute
    Inscrit:
    4 Juin 2004
    Messages:
    42
    J'aime reçus:
    0
    ha ok :) ... Je pense que c'est très juste alors, je pense que ce que met en exergue cette analyse est juste : c'est bien comme cela que le moteur fonctionnait, c'est bien comme cela qu'il fonctionne.

    De savoir si les résultats sont plus justes sur le plan de la sémantique ou au sens de caliméro, c'est une autre histoire... :D
     
Chargement...
Similar Threads - Fonctionnement passé présent Forum Date
fonctionnement précis outil suppression url search console Débuter en référencement 18 Octobre 2021
Récapitulatif Les CMP (Consent Management Platform) : intérêt, fonctionnement... Administration d'un site Web 30 Mars 2021
Activation suivi e-commerce et fonctionnement côté GA Google Analytics 15 Mars 2021
Fonctionnement CPC/CPM AdSense 16 Avril 2020
Logique de fonctionnement d'une application mobile Développement d'un site Web ou d'une appli mobile 17 Mars 2020
Un tel fonctionnement de google est-il possible ? Référencement Google 4 Mars 2020
Fonctionnement de la méthode cocon sémantique Référencement Google 31 Mai 2019
Tracer le fonctionnement d'Apache (2.2.15) Administration d'un site Web 23 Avril 2018
Fonctionnement Balises titre Hn Problèmes de référencement spécifiques à vos sites 17 Janvier 2018
Je ne suis pas sur du bon fonctionnement de mon .htaccess Netlinking, backlinks, liens et redirections 12 Septembre 2016
Fonctionnement robots.txt Débuter en référencement 19 Août 2016
Fonctionnement Pagerank Google : l'entreprise, les sites web, les services 5 Avril 2016
probleme fonctionnement script Développement d'un site Web ou d'une appli mobile 4 Janvier 2015
Fonctionnement d'un sous domaine Administration d'un site Web 19 Octobre 2013
Contrat maintenance fonctionnement heures décomptées Droit du web (juridique, fiscalité...) 3 Octobre 2013
verification de l'etat de fonctionnement d 'un site Demandes d'avis et de conseils sur vos sites 6 Septembre 2013
Fonctionnement des stats Commerce Electronique sur Google Analytics? Google Analytics 5 Septembre 2013
Fonctionnement de la recherche de blogs Google Référencement Google 4 Avril 2013
Script anti-fonctionnement AdBlock Développement d'un site Web ou d'une appli mobile 7 Janvier 2013
Comment se rémunère Prestashop? Questions aussi sur l'fonctionnement de leurs modules e-commerce 11 Décembre 2012