Ma "mesure" du pagerank

WRInaute discret
Bonjour,

WRI le rappelle dans l'accueil, le PR public a disparu.
Mais le VRAI PR est toujours (plus ou moins) pris en compte.

Comment se faire une idée de sa valeur ?

Il y a longtemps de cela, j'avais noté un ensemble de corrélations immédiates entre le PR-Public et d'autres facteurs immédiatement mesurables comme :
- Le temps mis par Google pour indexer une page à compter de sa publication, fonction décroissante (log) du PR-Public
- Le nombre de pages indexées, fonction croissante du PR-Public
...
Ces autres facteurs étant toujours mesurables, je crée une page avec un millier de liens à la queue-leu-leu vers d'autre pages (non liées par ailleurs) et je relève les autres paramètres tels que le nombre de pages indexées.
De temps à autres, je crée un nouveau lien en tête de liste et relève le temps mis par GG pour l'indexer.

Et me voilà avec une "idée" du PR-Vrai de la page de liens.

En dépit de tout ce que l'on peut lire par ailleurs, j'ai ainsi pu observer que les backlinks sont toujours aussi important relativement à cet ensemble de facteurs.

Et... j'ai aussi pu observer que ce PR-là n'avait plus de lien avec le positionnement sur les pages de recherche.
Plus j'ai de page indexées et plus le nombre de clics augmente (statistiquement normal) mais plus la position moyenne de la page de liens baisse. (Probablement pour cause de dilution de mots-clés)

Donc... voilà... une manière de bricoleur pour évaluer le PR-Vrai d'une page de son site... Pas vraiment valable coté SEO... :mrgreen: mais qui peut être utile aux afficionados des chiffres.

Elle m'a en tout ca été utile à moi pour réaliser que l'augmentation du nombre de pages (originales et qualité GG) d'un site ne va plus dans le sens d'un meilleur positionnement d'une home page dans les moteurs de recherche à cause de la dilution des mots-clés qu'elle entraîne.
 
WRInaute accro
aCOSwt a dit:
- Le temps mis par Google pour indexer une page à compter de sa publication, fonction décroissante (log) du PR-Public

Rien à voir avec le PR
Ceci dépend de la fréquence de passage des google-bot
Elle-même dépend de la fréquence de publication sur le site

En plus, toutes les pages ne sont pas visitées selon la même fréquence. La page d'accueil est visitée plus souvent
Donc ça dépend aussi du fait que les nouvelles pages sont liées ou non à la page d'accueil

Et pour finir ça dépend du maillage interne

Ca dépend aussi du partage sur les réseaux sociaux et de liens externes qui peuvent arriver sur la nouvelle page. Si la page est publiée dans un site d'actualités, reprise par des flux RSS, etc...

Et pour finir, tous ces paramètres que je viens de citer dépendent peut-être un peu du PR mais de manière totalement indirecte. Ce n'est pas parce qu'une page à un gros PR que google va venir la visiter plus souvent. Mais souvent les pages à gros PR sont visitées plusieurs fois par jour par les bots car ces derniers suivent les liens externes qui pointent vers ces pages et qui participent donc à son PR.

Donc en résumé, la fréquence de passage des bots et le PR ne sont aucunement liés mais dépendent chacun de facteurs qui peuvent être communs sans pour autant avoir de rapport entre eux.

Ce n'est pas parce que les bots passent plus souvent que le PR sera plus élevé
Ce n'est pas parce que le PR est élevé que les bots passent plus souvent
Mais c'est parce que la page reçoit beaucoup de liens que les bots passent plus souvent et que le PR est élevé
Tu peux très bien avoir un site à énorme PR qui fait un lien vers une de tes pages et personne d'autres qui en font. Ta page aura un gros PR mais un passage de bots assez rare car peu de liens.
Tu peux aussi avoir un passage très rapproché des bots car le site est mis à jour plusieurs fois dans la journée, et au final un PR ridicule.
 
WRInaute accro
Indigène a totalement raison.

J'ai expérimenté des écarts d'indexation de plus de trois jours sur des sites qui avaient le même PR.

Le remplacement du PR, ce sont plutôt les indicateurs de SeoMoz ou Majestic, bâtis à partir des liens crawlés.
 
WRInaute discret
indigene a dit:
aCOSwt a dit:
- Le temps mis par Google pour indexer une page à compter de sa publication, fonction décroissante (log) du PR-Public
Rien à voir avec le PR
2 ans de stats d'il y a près de 10 ans sur des pages en PR >=5
- Les pages en PR8 faisaient indexer les pages liées en moy:15mn / stdev:5min
- Les pages en PR7 moy:30mn / stdev:10mn
indigene a dit:
Ceci dépend de la fréquence de passage des google-bot
:D qui... elle-même dépendait directement du PR de la page.
indigene a dit:
Et pour finir ça dépend du maillage interne
Dans mon expérience, j'avais considéré des pages sans maillage interne et, de toutes manières, une nouvelle page qui vient d'être publiée n'a pas encore de maillage interne. Et il est en tous les cas encore très faible dans la demi-heure qui suit.
indigene a dit:
Donc en résumé, la fréquence de passage des bots et le PR ne sont aucunement liés mais dépendent chacun de facteurs qui peuvent être communs sans pour autant avoir de rapport entre eux.
:roll: ... bon... à moins que GG ait remplacé les real-programmer par des quiche-eaters... On fait... JAMAIS ça en algorithmique! Jamais car... c'est la meilleure façon d'avoir tout faux.
Si A=f(x,y,z,t,u,v) et que je fais A=g(B,C) avec B et C elles-mêmes fonction de variables et que une seule de ces variable est commune dans l'expression de B et celle de C... Pfioutt! Vérolé! :mrgreen:
On est dans un monde de lois normales. Et avec les lois normales... les variables aléatoires doivent être toutes indépendantes. GG invente certes beaucoup de trucs mais... n'est pas encore en mesure de foutre Gauss à plat quand même!
 
WRInaute accro
aCOSwt a dit:
:D qui... elle-même dépendait directement du PR de la page.
Es tu certain de ne pas confondre corrélation et causalité ?

aCOSwt a dit:
de toutes manières, une nouvelle page qui vient d'être publiée n'a pas encore de maillage interne.
Cela dépend de ton site et de la façon dont il est construit. Chez moi des pages qui viennent d'être publiées peuvent avoir du maillage interne.

aCOSwt a dit:
à moins que GG ait remplacé les real-programmer par des quiche-eaters... On fait... JAMAIS ça en algorithmique! Jamais car... c'est la meilleure façon d'avoir tout faux.
Je crois que c'est toi qui as tout faux... tu pars du principe que les deux sont liés. Or le principe de la corrélation, c'est justement que des variables indépendantes puissent sembler évoluer de la même façon sans qu'il y ait un lien de causalité entre les deux. Si je te dis que j'ai des contre-exemples réguliers à ton affirmation, ça doit aussi te faire réfléchir, non ?
Les algos de Google ont énormément évolué dans le temps, comme la façon de faire venir le bot.
 
WRInaute discret
Nouvelle observation.

Admettant que le "pagerank" (que l'algo tourne toujours ou non) soit toujours représentatif du "jus" des BL.

Il y a 10 ans de cela, en admettant que toutes les pages d'un site liaient vers la home, l'augmentation du nombre de pages d'un site contribuait à l'augmentation du PR de la home page.
C'est d'ailleurs pourquoi des sites comme Microsoft, IBM etc... avec leurs x-mille pages de doc trustaient les plus forts PR.

Je vais peut-être enfoncer une porte ouverte (C'est une de mes spécialités) maintenant, mes récentes expériences tendraient à prouver que l'augmentation du nombre de pages d'un site ne sert plus directement le PR.
Bien au contraire, le PR limiterait le nombre de pages d'un site indexées à une valeur limite.

Et ce... depuis une mise à jour que je situe au : 17 Juillet 2016.

Avant, à BL constant, le nombre de page indexées de mon site d'essais s'accroissait au fur et à mesure des nouvelles publications.
- Pour un total de B0 liens externes (tels que rapportés par GWT) atteint P0 pages indexées.
- Le 17, pour un même total de B1=B0 liens externes, je suis tombé à P1 pages indexées < P0
- Malgré la publication de nouvelles pages, la situation est restée identique pendant 2 semaines.
- Le 30, GWT ne me trouve plus que B2 liens externes < B1 et... je tombe simultanément à P2 pages indexées < P1.
- Après 1 semaine de situation stable, j'obtiens quelques nouveaux BL et porte à B3 le nombre de liens externes > B0 et... passe simultanément de P2 pages indexées à P3 pages indexées > P1.
- Situation rigoureusement stable depuis.

Des observations similaires ?
 
WRInaute accro
aCOSwt a dit:
Il y a 10 ans de cela, en admettant que toutes les pages d'un site liaient vers la home, l'augmentation du nombre de pages d'un site contribuait à l'augmentation du PR de la home page.
Euh non....
Chaque page nouvellement créée sans lien pointant vers elle a un "PR" de 0
Dans un site, elle reçoit un jus qui circule et qui "remonte", mais aucune augmentation de PR. Le brevet est clair, il faut des liens externes...
 
WRInaute discret
Non Marie-Aude.
Il est mathématiquement démontrable (si vous me le demandez, je vous le fait mais cela passerait les limites de ce post) que l'algo de PR (itératif) DOIT commencer par une valeur initiale non nulle pour fonctionner normalement.
La question de savoir quelle est cette valeur initiale avait été posée (il y a ??), Robert Love (Google Search) avait alors répondu :

"The algorithm begins at step one with some initial PageRank assigned to all pages. The algorithm is then applied iteratively until it arrives at a steady state; that is, until a PageRank has been distributed to all pages and a subsequent iteration of the algorithm provides little or no further change in the distribution of PageRank. The initial PageRank needs to be a function of the number of pages in the index; in the original PageRank paper it is 1/N for N pages in the index. This is the answer to your question: the PageRank of all pages is initially set to 1/N."
 
WRInaute accro
Certes, certes... mais vu le nombre de pages dans l'index, 1/N est très proche de zéro.

Strictement RIEN dans la réponse que tu cites ne permets d'imaginer que l'index en question est limité aux pages d'un site. Cela serait même totalement illogique.
Je me permets d'ailleurs de te rappeler que les "nouvelles pages" avaient un PR grisé ou égal à zéro à l'époque où il était affiché.
 
WRInaute occasionnel
aCOWst n'a pas faux sur tous les points : par défaut chaque page a un score de popularité. En pratique on fait généralement du calcul non normalisé pour tolérer l'ajout et la suppression de page sans nécessité de refaire tous les calculs et donc la valeur de base est 1 et pas 1/N, et la popularité totale dans l'index est donc N (=taille de l'index à tout moment).

Ensuite, les stratégies de crawl sont multiples (tous les bots ne font pas la même chose) et donc on refresh (=revisite des pages) selon différents critères, et effectivement l'un des critères est la popularité (=le pagerank) car il est raisonnable de visiter plus souvent les pages les plus populaires. Ces dernières permettent donc d'indexer plus vite par ricochet. Ceci étant, la "dynamicité" (fréquence de modifications) est aussi un critère pour le refresh, au niveau de la page et du site.
 
Olivier Duffez (admin)
Membre du personnel
mais en augmentant le nb de pages de l'index, le PR de la home peut diminuer (vu qu'on divise par un plus grand nombre)

au fait aCOSwt, comment mesures-tu le nb de pages indexées sur ton site ? et quel est son ordre de grandeur ?
 
WRInaute discret
WebRankInfo a dit:
mais en augmentant le nb de pages de l'index, le PR de la home peut diminuer (vu qu'on divise par un plus grand nombre)
Oui WRI! C'est mathématiquement juste. Maintenant ce qui m'interpellait le plus dans cette histoire, ce que je trouve nouveau depuis le 17 Juillet c'est que le PR maximaliserait le nombre de pages indexées pour un site à un nombre absolument exact!
En bref, Le nombre maximal de pages indexables pour un site serait très précisément = f(PR) ce qui, pour moi, serait une sorte de... SCOOP!

Je fais mes mesures sur 2 sites :
- Le site avec lequel je "joue" (avec les bls, les pages en noindex ou non...)
1K pages disponibles et donc... en fonction de mes "jeux"... entre... 0 et 1K pages indexées. Dans l'instant : 622.
- Mon site pro, Nombre de pages indexées dans l'instant : 10M+ répartis sur une dizaine de sous-domaines.
Bon... évidemment... je ne joue pas avec celui-là, je veux dire que ce n'est pas avec celui-là que j'essaye de faire varier les paramètres pour chercher à obtenir la formalisation de NBpagesIndexablesMAS=F(PR)
Dans ce cadre, il ne me permet que de valider ou invalider mes observations faites avec le site "de jeu"

Je relève le nombre de pages indexées sur mes sites sur GWT et avec la commande site. Les résultats obtenus divergent rarement de plus de 1%.
Pour la taille de l'index je me réfère à http://www.worldwidewebsize.com/
Comme tu peux le remarquer il est assez constant ces derniers temps. Et c'est bien cela qui compte pour les observations bien plus que sa valeur numérique.
Il est assez constant "ces derniers temps"... tu n'auras pas manqué de noter le brusque +15%... autour du... comme par hasard... 17 juillet...
 
Olivier Duffez (admin)
Membre du personnel
je n'ai pas compris comment tu peux calculer le PR de tes (centaines de) page au jour le jour, pour arriver à dire que quelque chose en rapport avec le PR a changé autour du 17 juillet...
 
Discussions similaires
Haut