Point sur Dominic & conjectures

WRInaute impliqué
A la date d'aujourd'hui, il commence à être possible de tirer quelques conclusions définitives sur l'évolution du fonctionnement de Google.

1°) Fin des Deepcrawl

Cela fait des semaines que l'on attend les robots du deepcrawl, qui ne viennent pas. Google a renoncé de plus à utiliser les données du précédent deepcrawl. Pourquoi ?

Non, ce n'est pas parce Google a décidé par lubie de laisser des données périmées dans la base... Non, ce n'est pas non plus parce qu'ils ont eu un problème technique. Google a décidé de passer à "l'everflux" ...

On en est pas sûr à 100%, mais Googleguy l'a clairement laissé entendre (dans la mesure où l'adverbe "clairement" puisse réellement s'appliquer aux posts de Googleguy).

Le passage à l'everflux a quelques conséquences logiques immédiates :
- il n'existe plus qu'un seul type de robots : le "deepfreshbot", qui aspire tout ce qu'il peut régulièrement, pour alimenter l'index.
- l'index est alimenté beaucoup plus souvent en pages nouvelles qu'avant (phénomène déjà constatable) : le contraire ferait d'ailleurs perdre tout intérêt à l'everflux
- les seules pages qui peuvent correctement être indexées dans le cadre de l'everflux, sont celles qui peuvent bénéficier d'un PR estimé. Les autres ne peuvent pas être classées, donc malheur aux nouveaux sites qui n'ont pas encore de pagerank...
Ces pages qui rentrent dans l'index, contrairement aux données de freshbot, ne sont plus forcément datées, et restent dans l'index, ce qui signifient qu'elles se voient doter d'un PR stable.

Remarque 1 : pour l'instant, l'ajout de ces pages "non datées" se fait sans périodicité régulière visible.

Remarque 2 : l'entrée de pages datées à la mode freshbot existe toujours... (aujourd'hui, on voit des pages datées du 6 juin)

2°) Le système de prise en compte des backlinks et les filtres ont changé...

A mon avis, nous n'avons pas assez de recul pour comprendre la nature profonde de ces changements, et là, on se perd en conjectures. C'est peut-être lié à l'everflux, ou pas.

On peut faire trois constats :
- le nombre de baclinks compté par google est plus proche de la réalité qu'avant
- les backlinks sont choisis plus sévèrement qu'avant (d'où une chute de leur nombre)
- les données de backlinks retenues datent d'avant la Boston

Explication possible : google teste en ce moment la possibilité d'une mise à jour différente des backlinks, apportée par l'everflux, puisqu'elle ne peut plus être apportée par le deepcrawl...

3°) Le calcul du pagerank continue à imposer des mises à jour majeures à intervalles réguliers

Ce n'est donc peut-être pas la fin des Googledance. Contrairement à ce que beaucoup ont pu dire, les changements dans les SERP ne sont pas révolutionnaires. Il est clair que l'algorithme de pagerank utilisé dans les SERP post Dominic ressemble à ce que l'on connait depuis des mois.

On peut en déduire par conséquent que Google a toujours besoin d'effectuer les mêmes calculs sur ses index qui prenaient des jours, voire des semaines, et qui sont indispensables pour classer les pages sans PR...

Nouveauté : la base qui sert à ces calculs n'est plus un deepcrawl, mais une base mise à jour en permanence par everflux... Ce qui doit poser des problèmes nouveaux, comme par exemple le fait que la base est constituée d'éléments collectés sur une période de temps beaucoup plus longue... Gare aux erreurs 404 !

Googleguy a annoncé une Dance classique possible dans jours à venir... on sera vite fixé... Cela devrait se traduire par l'entrée des nouveaux sites dans l'index cette fois-ci.
Cela sous-entend aussi que les prochaines dances seront moins classiques... J'ai mon idée là-dessus, mais elle est trop "spéculative" pour la lacher maintenant. Disons que cela passe forcément par la possibilité de calculer un PR pour toute nouvelle page, sans attendre la prochaine Dance...

Cette dance devrait s'accompagner de l'arrivée également de backlinks frais...

Voilà : ce ne sont que des réflexions personnelles. Je n'ai pas d'entrées chez Google, pas de boule de cristal. Il s'agit juste de lancer un débat sur ce qui se passe vraiment chez Google.
 
Olivier Duffez (admin)
Membre du personnel
Très intéressant, d'ailleurs j'espérais qu'un de ceux qui ont eu le temps de bien suivre Dominic ici ou sur WmW fassent un résumé... Merci cariboo de te lancer !

Quelques petites remarques :
les seules pages qui peuvent correctement être indexées dans le cadre de l'everflux, sont celles qui peuvent bénéficier d'un PR estimé. Les autres ne peuvent pas être classées, donc malheur aux nouveaux sites qui n'ont pas encore de pagerank
Pour ceux qui ne le savent pas, le PR d'une page peut (ou pouvait) être estimé si le répertoire père avait un PR non estimé. Typiquement, une nouvelle page ajoutée dans un répertoire déjà connu se voyait attribuer un PR égal à 1 de moins que le PR du répertoire père.
Pour aller plus loin : tu penses qu'il n'y a plus (ou pas autant) de phénomène de "prime de faicheur" ? pourtant moi je l'ai encore constaté ces 15 derniers jours. Je ne vois pas bien pourquoi les pages toutes nouvelles seraient si mal classées ? Surtout qu'il ne faut pas trop se fier au PR en ce moment, il y a de nombreux exemples qui montrent que la Toolbar envoie parfois des PR erronés.

Ces pages qui rentrent dans l'index, contrairement aux données de freshbot, ne sont plus forcément datées, et restent dans l'index, ce qui signifient qu'elles se voient doter d'un PR stable.
je ne pense toujours pas qu'une nouvelle page se voit attribuer un PR "stable" dès son entrée. Je pense (mais c'est à vérifier) que Google a toujours besoin d'un calcul de PR (et de backlinks) et qu'il faut donc toujours attendre une Google Dance pour avoir un "vrai" PR.

Sur ce point on va pouvoir débattre... Je pense qu'il est assez facile de calculer rapidement un PR pour chaque nouvelle page, mais ce sera un PR estimé (mais bien mieux estimé que la règle du N-1). Il ne faut pas oublier que théoriquement, dès que Google classe une nouvelle page (en lui calculant un PR), le PR de TOUTES les autres pages peut théoriquement bouger.

J'ai ajouté par exemple récemment la page Comment être en page 1 sur Google.
 
WRInaute impliqué
En fait Olivier, sur le "freshbot", et le calcul du PR nous sommes parfaitement d'accord.

Oui, comme avant les pages "freshcrawlées" apparaissent avec une prime de fraicheur... Et il semble qu'elles connaissent la même évolution qu'avant : elles sont susceptibles de disparaître... et de perdre leur prime de fraîcheur. Je pense que la prime de fraîcheur est gérée en ce moment exactement comme avant Dominic.

Même chose pour le calcul du PR : je pense que rien n'a encore changé de ce côté là, et que Google ne sait pas calculer un PR dans le cadre d'une mise à jour continue. S'ils le font un jour, cela signifierait un changement profond d'algorithme. Ce n'est pas du tout ce que l'on voit.

Et quand je disais PR stable, je sous entendais "jusqu'au prochain calcul de PR". Car il s'agit bien d'un PR estimé, mais sans prime de fraicheur qui amène la page à disparaître...

En ce qui concerne l'entrée de pages non datées, et sans prime de fraîcheur, force est de constater que cela n'a concerné que peu de sites... Cela ressemble plus à un test qu'à une véritable mise à jour... Bref, il va falloir attendre plusieurs semaines pour savoir si c'est un comportement "normal" de Google... Je semble très affirmatif dans mon post alors qu'en fait, je ne crois pas que l'on puisse déjà en tirer des conclusions définitives.

Et le véritable plus de "l'everflux" n'est pas l'entrée de nouvelles pages de sites déjà indexé dans l'index, mais l'entrée de nouveaux sites... Ce qui ne se produit pas encore
 
WRInaute occasionnel
et surtout ne pas oublier que l' on n' est pas forcément logés tous à la même enseigne
j ai une dizaine de nouvelles pages depuis le debut du mois de mai, pages qui n' ont pas de pr estimé et pas plus de prime à la fraicheur, avec une belle barre grise, d' autres faites fin mai ont un pr de 0 et chez moi le pr est stable, (toujours celui de février). ce qui me fait penser que le pr actuel affiché n' est pas pris en compte pour les resultats de requette, donc le nouveau pr est deja integré mais pas donné , tout ce flou sur cette dance est surement fait pour cacher les façons de calcul de pr, qui doit surement se faire en permanence et plus apres le passage du fullcrawl. :roll:
 
WRInaute impliqué
J'ai moi aussi constaté que la "prime à la fraicheur" existait toujours, mais avec des "glitches". Ces dernière semaines, Google à visiblement switché plusieurs fois de l'ancien index (pages d'avril) dont mes nouvelles pages étaient évidemment absentes, au nouvel index, dans lequel certaines de ces pages sortaient en réponse n°1. Ces switches avaient lieu tous les 4 à 5 jours.

Cette situation continue, mais l'ancien et le nouvel index semblent converger: certaines de mes nouvelles pages sont entrées dans l'ancien index (mais pas en n°1, pas de prime à la fraicheur) et ces mêmes pages ont perdu des places dans le nouvel index (plus de prime à la fraicheur).

J'ai l'impression que google fait vivre les 2 bases en parallèle. Peut être temporairement, pour assurer le backup pendant la phase de changement d'algo.

les seules pages qui peuvent correctement être indexées dans le cadre de l'everflux, sont celles qui peuvent bénéficier d'un PR estimé. Les autres ne peuvent pas être classées, donc malheur aux nouveaux sites qui n'ont pas encore de pagerank...
Tu veux dire que les nouveaux sites ne pourront pas entrer ou pas figurer correctement dans Google? Impossible, Google deviendrait complètement obsolète en 3 mois. Ce serait sa fin.[/quote]
 
WRInaute impliqué
anguenot>

Tu veux dire que les nouveaux sites ne pourront pas entrer ou pas figurer correctement dans Google? Impossible, Google deviendrait complètement obsolète en 3 mois. Ce serait sa fin.

C'est sûr :lol:
Ce n'est pas du tout ce que je veux dire. Ce que je veux dire, c'est qu'il faut attendre une "dance" pour voir apparaître les nouveaux sites... comme avant. Sauf que la "dance" ne correspondrait plus qu'à une mise à jour majeure consécutive au calcul du PR...

american>
Il y'a de nombreuses explications possibles à ce que tu observes :
1. Le pagerank donné par la Googlebar peut être faux... Ce qui n'empêche l'index d'être calculé avec le bon PR
2. Il y'a bien d'autres facteurs que le PR pour classer les pages. Mais un PR de 0 n'interdit pas de sortir en premier sur une requête
 
Olivier Duffez (admin)
Membre du personnel
cariboo a dit:
Sauf que la "dance" ne correspondrait plus qu'à une mise à jour majeure consécutive au calcul du PR...
Pour moi ça n'a jamais été autre chose !!! Ca fait des mois que je m'escrime à expliquer que la caractéristique majeure de la Google Dance est de donner des nouveaux PR aux pages, et non pas de bouleverser l'ordre des résultats. En résumé, le calcul du PR ne semble pas encore pouvoir se faire en continu, donc de temps en temps seulement il est mis à jour.

american a dit:
qui n' ont pas de pr estimé et pas plus de prime à la fraicheur, avec une belle barre grise
Attention, la prime de fraicheur est caractérisée par le fait que les pages nouvellement indexées n'ont pas besoin d'avoir un PR pour être bien classées... pendant quelques jours. Ca peut arriver comme le dit anguenot que ces pages-là bénéficient de ce "coup de pouce" pendant 2 jours, puis le perdent pour le regagner, et ce pendant une dizaine de jours. Au-delà, je pense qu'il n'y a plus de "prime de faicheur", à moins peut-être de modifier le contenu de la page de façon importante.
 
WRInaute passionné
Très bien ce résumé, je rajouterai une chose sur Dominique.
On a remarqué, la nouveauté de GOOGLE qui arrive à insérer des news dans certains résultats de recherche.
Je pense donc aussi que Dominique s'investit pleinement dans l'indexation des url dynamiques.
Déja en allant sur GOOGLE NEWS beta, on se rend compte de l'incorbale capacité de GOOGLE a indexé très rapidement des pages de NEWS avec des URLS avec beaucoup de varaibles, vous me direz, c'est peut être parce qu'ils utilisent des fichiers backends ou autre, mais je pense qu'ils ont fait un pas en avant dans l'indexation des urls à varaibles longues.

Sans doute dans le futur, l'URL rewriting ne servira à rien.

Mies Van der Rohe at Work
 
WRInaute discret
Pour résumer et outre le calcul PR.... avant google avait la particularité d'indexer TOUTES (ou presque) les pages d'un site. Cela sera il encore le cas avec ces nouveaux crawls ?
 
WRInaute impliqué
Aucun indice de changement de ce côté là. :)

La taille de l'index fait partie des "points forts" de Google, on ne s'attend pas à ce qu'ils abandonnent cet avantage concurrentiel... plutôt même à ce qu'ils en fassent plus, pour éviter de laisser trop de terrain à Fast...

Rappelons au passage que Google doit se préparer à des attaques sérieuses sur au moins trois fronts :
- Yahoo/Inktomi
- Microsoft avec son moteur tout neuf
- Fast/Altavista/Overture

La "bataille ultime" pourrait avoir lieu à la rentrée...

Il ne faut pas chercher ailleurs l'origine des changements en cours. Gageons que Google cherche à prendre de l'avance, et à continuer à donner de meilleurs résultats que ses concurrents. N'en déplaise à ceux qui croient que "Google est cassé", à "perdu des données", "est tombé à cours d'identifiants pour les pages", ou à ceux qui croient en une conspiration visant les SEO, les webmasters trop malins, voire les membres de WRI ou de WMW...
 
Olivier Duffez (admin)
Membre du personnel
Concernant l'indexation des pages dynamiques avec bcp de variables dans l'URL, on peut supposer que Google a une politique d'indexation spéciale pour les sites qu'il a sélectionnés pour Google News (car les sites indexés ne sont pas trouvés au hasard, ils sont choisis pour faire partie de la liste).
 
WRInaute occasionnel
sans oublier deepindex sur wri :lol:
par contre masquer un maximun sa façon de faire surement :?
 
Haut