🧟‍♂️️ Vérifiez vos pages zombies SEO sur votre site !!! 🧟‍♀️️

Elles plombent votre référencement et ne vous rapportent rien...

Je le détaille dans mon tuto Pages Zombies

formule calculs
Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Comment calculer le PageRank interne de toutes les pages d’un site web ?

A quoi sert de calculer le PageRank interne des pages d’un site web ? Quels sont les éléments à prendre en compte ? Pour quels objectifs ? Découvrez cela dans ce dossier…

Pourquoi calculer le PageRank interne ?

Le PageRank, un des éléments les plus populaires de l’algorithme de Google, est désormais presque enterré. En effet, Google a décidé de ne plus mettre à jour ce qu’on appelle parfois le Toolbar PageRank, c’est-à-dire une version très approximative du PageRank réel.

Mais alors, quel intérêt d’en parler encore maintenant ?

Depuis des années, j’utilise un outil « maison » pour calculer ce qu’on peut appeler le PageRank interne, c’est-à-dire le PageRank des pages d’un site en ne tenant compte que des liens internes. Pour tout vous dire, il s’agit d’un produit de ma plateforme My Ranking Metrics (mais pas encore accessible au public).

Le résultat est donc forcément différent du PageRank réel des pages, surtout pour un site qui reçoit des liens de l’extérieur vers certaines de ses pages internes.

Cependant, connaître le PageRank interne permet de se rendre compte de l’architecture du site, de la façon dont on a mis en avant certaines pages dans le maillage interne.

Je reviendrai sur les possibilités d’optimisation lors d’une mise à jour de ce dossier, car pour l’instant je souhaite aborder d’autres points techniques.

Comment calculer le PageRank interne ?

Je ne traite pas ici des outils permettant de calculer le PR (j’ai le mien chez My Ranking Metrics, bien que pas encore public, mais voyez aussi l’article de Johan Puisais qui en liste quelques uns) ou de ceux permettant de visualiser les PR internes (Gephi est un classique et cocon.se semble prometteur même s’il ne parle pas directement de PageRank).

Je souhaite par contre démarrer une discussion sur certaines options de calcul : merci d’avance pour vos commentaires et suggestions ! Je numérote les questions pour faciliter les discussions.

L’idée est d’exploiter la formule initiale (d’ailleurs on pourrait sans doute faire mieux, qu’en pensez-vous ?) en ne tenant compte que des liens internes.

Q1 : Quand une page A fait plusieurs liens vers la même page B, faut-il faire comme s’il n’y avait qu’un seul lien ? Par exemple, si A contient 99 liens + 2 vers la page B, faut-il considérer qu’il y a 100 ou 101 liens sortants ? et 1 ou 2 liens entrants pour B ?

Q2 : Faut-il faire les calculs sur les pages HTML uniquement ? Ou doit-on tenir compte de tous les types MIME à partir du moment où ils reçoivent des liens ? Dans ce dernier cas, on peut évaluer la perte de popularité (fuite du jus comme on dit) due aux liens vers des documents non HTML.

Q3 : Faut-il faire les calculs sur les documents indexables uniquement ? (cette question est large, c’est pourquoi je la détaille dans les questions suivantes)

Q4 : Si la page A fait un lien vers la page B, laquelle déclarant C comme URL canonique, comment faut-il en tenir compte dans le calcul ? Doit-on considérer que c’est exactement comme si A faisait un lien vers C ?

Q5 : Si la page A fait un lien vers la page B, laquelle est en réalité redirigée en 301 vers l’URL C, comment faut-il en tenir compte dans le calcul ? Doit-on considérer que c’est exactement comme si A faisait un lien vers C ? Et que se passe-t-il si c’est un autre type de redirection (302 notamment) ?

Q6 : Si la page A fait un lien vers la page B, laquelle est inaccessible (404, 410, etc.), comment faut-il en tenir compte dans le calcul ? Doit-on considérer que ce lien ne compte pas dans le nombre de liens sortants de la page A ?

Q7 : Si la page A fait un lien vers la page B, laquelle est interdite d’indexation (meta robots noindex, etc.), comment faut-il en tenir compte dans le calcul ? Doit-on considérer que ce lien ne compte pas dans le nombre de liens sortants de la page A ?

Q8 : Si la page A fait un lien vers la page B, laquelle est interdite de crawl (blocage dans le fichier robots.txt), comment faut-il en tenir compte dans le calcul ? Doit-on considérer que ce lien ne compte pas dans le nombre de liens sortants de la page A ?

Q9 : Si la page A fait un lien nofollow vers la page B, comment faut-il en tenir compte dans le calcul ? A priori, d’après ce qu’avait déclaré Matt Cutts sur le PR Sculpting, il faut compter ce lien dans les liens sortants de A mais ne pas le compter dans les liens entrants de B. Est-ce aussi votre interprétation ?

Q10 : Est-il correct d’utiliser un damping factor de 0,85 ? (formule d’origine du PageRank)

Notez que j’ai bien entendu déjà des réponses à ces questions, mais je préfère avoir d’autres avis ! Car à moins de bosser sur l’algo chez Google, on a chacun sa façon d’interpréter les choses…

Merci d’avance pour vos commentaires !

Calculer le PageRank interne

SEO : calcul du Pagerank interne des pages d’un site web

Cet article vous a-t-il plu ?

Note : 5.0 (3 votes)
Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

23 commentaires

Laurent Bourrelly

Dans les outils de Visiblis.fr tu as une cartographie du PageRank

Répondre
Olivier Duffez

En effet Laurent, merci. J’ai justement contacté Jérôme sur Twitter.
Merci de passer par là, as-tu des idées aux questions posées dans cet article ? Je ne les ai jamais vu abordées de façon aussi précise.

Répondre
Gary Le Masson

Tout d’abord le Random Surfer au début puis le Reasonable Surfer en 2010 (CF http://www.seobythesea.com/2010/05/googles-reasonable-surfer-how-the-value-of-a-link-may-differ-based-upon-link-and-document-features-and-user-data/)

La taille d’un lien ou son placement dans la page ont maintenant une importance dans la transmission du PR. Donc à moins de faire des estimations aux doigts mouillés… je crois que ça va être difficile de se faire une idée.

Se faire une représentation de ce qui est accessible via un lien est une chose, savoir quelle est la répartition du jus PR, je pense que c’est un peu chaud là.

Répondre
Olivier Duffez

Merci Gary, mais je doute qu’on puisse calculer autre chose que le PR avec la formule du départ.
Et sinon, quel est ton avis sur les autres questions ?

Répondre
Olivier Duffez

@Gary :
– je sais bien qu’il existe des variantes du PageRank traditionnel, mais je doute qu’on puisse les calculer nous qui ne sommes pas chez Google.
– l’objectif ici est de calculer un score de popularité interne qui représente le maillage interne, et pas quelque chose qui existe précisément chez Google. J’estime simplement que ça reste utile ;-)

Q4 : La page C reçoit 80% du jus avec la canonique (jus dégradé )
Q5 : La page C reçoit 90% du jus avec la 301 (jus dégradé car la 301 est mieux que la canonique)

tu n’as pas précisé, mais ces chiffres sont tes estimations, on est bien d’accord ? chacun a son interprétation et je me demande un peu d’où tu sors ces 80% et 90% ?

Pour le reste je te suis, merci pour tes réponses !

Répondre
Sylvain Peyronnet

Voici quelques unes de mes idées et remarques sur le sujet.

1. utiliser le pagerank standard (distribution stationnaire du surfeur aléatoire) est sans doute pas totalement correct vu qu’il ne prend pas en compte la thématisation. Mais c’est une bonne approximation pour bosser sa structure interne.

2. faire le calcul sur la structure interne seule est « misleading ». Il faut fusionner tous les liens vers l’extérieur en un noeud « out » pour visualiser la fuite de pagerank du site. Il faut également faire le calcul avec une surface d’atterrissage externe pour la téléportation, sinon le calcul est faux (car avec proba 15% on revient sur une page tirée uniformément dans le site, ce qui fait un biais très fort sur les petits sites).

Sinon, par rapport à certaines des questions (dans le désordre):

Q10 : 0,85 est toujours un bon choix, car le choix du damping factor ne modifie pas le classement des pages entre elles mais simplement la vitesse du calcul versus la force de discrimination (=c’est un paramètre de performance, pas de qualité)

Q9 : un NF c’est une téléportation

Q5 : une 301 c’est un double lien, il y a donc une page « fantome » qu’il faut prendre en compte (de manière équivalent : cela modifie localement le damping factor qui devient donc 0,7225)

Pour la plupart des autres questions, la réponse est difficile à donner car elle dépend des choix du moteur. Perso pour Q2 je ne prend en compte que les pages HTML et les PDFs crawlables. Pour Q1 je règle le problème lors du crawl en bornant le nombre d’URLs que je vais garder. Si une URL se trouve 2 fois dans ce que je garde, alors j’ai un lien dans mon calcul qui compte double.
Enfin, la plupart des nouveaux procédés de calcul du pagerank font de la simulation de surfeur aléatoire, donc tout ce qui est crawlable compte. Le fait d’être indexable n’a en conséquence rien à voir avec le calcul du pagerank.

Répondre
Olivier Duffez

@Sylvain : Merci pour tes commentaires détaillés !
Je suis bien d’accord que les calculs qu’on peut faire à notre niveau (surtout sans thématique) sont simplistes, mais ils peuvent aider à étudier la structure du maillage interne.
J’ai bien compris ton conseil de regrouper tous les liens sortants externes en un seul noeud, mais peux-tu préciser ce que tu entends par « Il faut également faire le calcul avec une surface d’atterrissage externe pour la téléportation » ?
D’ailleurs, la somme des « PRi » (PR internes) doit-elle toujours valoir 1 ?

Pour Q5 je ne suis pas sûr de te suivre. Je sais bien qu’on remarque qu’un lien qui passe par une redirection n’est pas aussi efficace qu’un lien direct. Je me rappelle aussi que Matt Cutts a confirmé que la 301 n’est pas aussi efficace qu’un lien direct, et certains ont pensé que l’écart d’efficacité était ce (1-d) doit 15%, mais est-ce aussi simple que ça ? Ne peut-on pas considérer dans mon exemple que A fait un lien vers C ?
D’ailleurs, dans l’exemple Q5, ne peut-on pas considérer que la page B a du PR ?

Pour Q1 je règle le problème lors du crawl en bornant le nombre d’URLs que je vais garder. Si une URL se trouve 2 fois dans ce que je garde, alors j’ai un lien dans mon calcul qui compte double.

désolé, ce n’est pas très clair pour moi. selon toi, il faut compter combien de liens sortants pour A et combien de liens entrants pour B ?

la plupart des nouveaux procédés de calcul du pagerank font de la simulation de surfeur aléatoire, donc tout ce qui est crawlable compte

Je suis bien d’accord avec toi. C’est pourquoi j’aimerais ton avis sur la question Q8 !

Répondre
Gary Le Masson

Q1 : 101 liens sortants car ya plus de probabilité de clic vers B
Q2 : Les PDF sont indexables et reçoivent du jus.
Q3 : Une page peut recevoir du jus et en transmettre sans être indexable (noindex follow)
Q4 : La page C reçoit 80% du jus avec la canonique (jus dégradé )
Q5 : La page C reçoit 90% du jus avec la 301 (jus dégradé car la 301 est mieux que la canonique)
Q6 : un lien est un lien, si on pointe vers une 404… la page non accessible reçoit du jus… et la 404 si elle a un lien vers la home ramène le jus à la home
Q7 : si la page est en Noindex, elle reçoit quand meme du PR et peut en transmettre.
Q8 : La division globale est au nombre de liens total, qu’ils soient follow ou pas. c’est la raison pour laquelle j’ai toujours pensé que le PR sculping etait une perte de temps
Q9 : la page A perd du PR et la page B n’en reçoit pas. (=perte seche de PR)
Q10 : le damping factor est il me semble nécessaire à ce que la formule tienne debout.

Voilou ce que j’en pense Olivier…

Répondre
Watussi

La formule du PR a probablement beaucoup évolué depuis 1998, tu n’as donc aucune chance d’avoir des résultats exacts.

Pour m’être beaucoup amusé avec ça, je pense que c’est un peu vain d’essayer d’espérer t’approcher de la vraie formule à travers quelques choix d’options. D’autant plus que même si tu fais varier tes options, les résultats (sur des gros sites) ne changent pas tant que ça.

Par contre c’est très amusant de calculer le PRi puis de le regrouper par catégories de pages pour vérifier si la puissance de ton maillage est bien dirigé vers les pages que tu souhaites pousser.

Souvent on a des surprises :-)

Répondre
Olivier Duffez

@Watussi : merci Jean-Benoît pour ton commentaire. Je suis tout à fait conscient de ne pas pouvoir calculer le PR tel que Google le calcule sans doute aujourd’hui, ce n’est pas mon but. Comme tu le sais bien, l’idée est ici d’étudier l’efficacité du maillage interne.
Et je te rejoins dans l’idée de la classification des pages puis leur regroupement (pas seulement pour le calcul du PR d’ailleurs).

Répondre
Visiblis

Bonjour Olivier,

Voici mon avis sur le sujet (on parle bien de PR selon sa définition première).

1 – Tous les liens sortants sont pris en compte dans le calcul du PR (quel que soit le type mime de la cible, quel que soit le code de retour HTTP de la cible, quel que soit le le type de lien dofollow/nofollow, et quel que soit le nombre d’exemplaires d’un même lien sur la page)

2 – Pour les liens entrants, lorsque A fait x liens vers B, un seul est pris en compte dans le calcul du PR de B. Si le lien de A vers B est en 301 ou 302, il est pris en compte dans le calcul du PR de B.
Mais le plus important pour la prise en compte des liens sortants est de savoir si la page est indexée ou pas : Une page non indexée quelle qu’en soit la raison ne transmet pas le PR !

En ce qui concerne le Damping Factor, la valeur couramment noté dans la littérature varie entre 0.8 et 0.85. Mais comme nous sommes dans le cas ou nous étudions le pagerank créé par les liens internes uniquement, sa valeur n’a que peu d’importance (puisqu’il sert à représenter la probabilité de choisir un lien au hasard donc vraisemblablement en dehors du site dans le cas réel de l’ensemble du WEB)

Olivier, excuse moi de ne pas avoir répondu question par question, c’est pour éviter les redites et les répétitions ;-).

Répondre
Olivier Duffez

@Visiblis : merci Jérôme pour ta contribution !
1- « Tous les liens sortants sont pris en compte dans le calcul du PR »
=> selon toi, faut-il vraiment inclure les liens vers les URL interdites au crawl ?

2- « Une page non indexée quelle qu’en soit la raison ne transmet pas le PR ! »
=> comme tu peux le lire dans les autres commentaires, les autres ne sont pas d’accord avec toi ;-)

Répondre
Olivier Duffez

Merci pour vos réponses, je n’ai pas le temps tout de suite mais je vous répondrai également !

Répondre
Johan Puisais - Xtendo

Bonjour Olivier et merci pour la citation de mon article ! L’ensemble de tes questions va bien au-delà et souligne bien la difficulté de définir les paramètres devant entrer dans le calcul du PR interne et comment les pondérer.

En « bricolant » le script « Page Rank Bot » je me suis vite aperçu qu’il me manquait des données et que pour certaines plus faciles à avoir, comment les introduire dans le calcul ? Au final, j’ai pris le parti de modéliser les liens internes d’un site via un outil maison qui me permet d’afficher (ou pas) certains maillages et types de liens et de voir ce que cela donne en résultat dans Gephi ou autre.

Pour certaines des questions que tu poses, il me semble que nous n’avons que des hypothèses et les tests, la recette Google restant hors de notre portée. Au risque donc de me tromper, je donnerais quand même mes réponses pour celles où je pense en avoir une ;-).

1) 100 liens sortants (sauf s’il y a des ancres # sur les liens suivants) – 1 lien entrant (sauf s’il y a des ancres # sur les liens suivants)
2) Je pense qu’il faudrait prendre en compte les fichiers que Google peut crawler et indexer tels que TXT, PDF, DOC, XLS…
3) Oui (du moins j’espère…)
4) Oui / oui
5) oui
6) C’est une fuite à mon avis, il faut prendre en compte dans le nombre de liens sortants
7) Fuite malheureuse je pense, mais oui il faut prendre en compte.
8) Fuite encore, non ?
9) Bonne question ;-) http://blog.internet-formation.fr/2015/09/les-liens-nofollow-a-nouveau-decomptes-du-pagerank-google/
10) Je l’appliquerais, Le surfeur aléatoire n’est-il pas à la base de la définition du pagerank même s’il devient raisonnable…

Comme le signale Laurent Bourrelly et ayant vu la démo de VisData (visiblis), voici un outil qui devrait attirer toute notre attention, car s’il cartographie le PR interne d’un site et il y adjoint le Semantic Rank. Plus que le simple PR Sculpting nous devrons nous soucier du « SR sculpting » ; cocoonons donc ;-)
Bien à vous tous.

Répondre
Lagzor

bonsoir,

Les réponses de chacun sont très intéressantes.
Néanmoins, selon moi, il manque une donnée la dedans.

Pensez-vous que les liens dans les réseaux sociaux (nombre de partages) ont un rôle dans le PR ?

Il serait intéressant d’y ajouter cette question.

Répondre
Olivier Duffez

@ Lagzor : les liens issus des réseaux sociaux sont en nofollow donc ignorés par Google, en particulier sans impact sur le PR des pages de destination. Mais de toutes façons mon article ne concerne que le calcul du PR interne.
est-ce que je réponds bien à la question/remarque ?

Répondre
Mathieu JANIN

J’arrive aprés la bataille mais…

[mode diplo]Je suis d’accord avec tout le monde ![/mode diplo]

Juste pour préciser mon accord, sachant que ce ne sont surtout que des impressions pour la plupart des réponses:

Q1 : Quand une page A fait plusieurs liens vers la même page B, faut-il faire comme s’il n’y avait qu’un seul lien ?

Non.

Chaque lien compte, a minima en sortie (sûr), et pour moi ici, dans ce que reçoit la page d’arrivée.
MAIS
Seul le premier lien passe son ancre.
Plus ils sont éloignés du centre et surtout plus ils sont bas, moins les liens sont pondérés dans la répartition.
En simul, je ne prend pas en compte cet aspect variable du lien dans le modèle du surfeur raisonnable.

Q2 : Faut-il faire les calculs sur les pages HTML uniquement ?

Non.

Les PDF aussi, et ils retransmettent leur PR s’ils ont des liens.
Un test avec une ancre sur un mot imaginaire dans un fichier DOC/PPT et tout format pouvant contenir des liens ancrés mériterait d’être fait.

Q3 : Faut-il faire les calculs sur les documents indexables uniquement ?

Non.

Indexable, je l’interprète uniquement comme « pouvant être présenté dans une SERP », c’est tout.
Pour moi, l’url « non indexée » existe pour l’algo, le contenu est analysé, et le tout transmet son jus. Exactement comme une page indexée, sauf peut être pour la transmission des ancres.
Vérifiable en mettant une ancre sur un mot inexistant dans une page noindex.

Q4 : Si la page A fait un lien vers la page B, laquelle déclarant C comme URL canonique, comment faut-il en tenir compte dans le calcul ? Doit-on considérer que c’est exactement comme si A faisait un lien vers C ?

Non.

C’est un lien de A vers B, et B même canonifiée retransmet son jus normalement (mais ses ancres, peut être pas).
Le canonical ne change rien à la transmission du jus.
Idem, vérifiable avec une ancre imaginaire dans B

Q5 : Si la page A fait un lien vers la page B, laquelle est en réalité redirigée en 301 vers l’URL C, comment faut-il en tenir compte dans le calcul ? Doit-on considérer que c’est exactement comme si A faisait un lien vers C ? Et que se passe-t-il si c’est un autre type de redirection (302 notamment) ?

Ca dépend.

Avec une 301, c’est un lien A vers C, mais avec une perte de ~15% supplémentaire lors du 2e saut.
Pour le 302, c’est moins clair.
Au début, pour ce que j’en ai compris, tout fonctionne comme si il n’y avait pas de redirection:
– si B existait, elle transmet toujours son jus comme si elle était toujours là avec ses liens (test possible avec ancre imaginaire dans B avant redirection)
– si B n’existait pas, le jus est perdu
Dans les deux cas, C ne reçoit rien.
Au bout d’un certain temps (?) la 302 est considèrée comme une 301 et transmet ~85% du jus.

Q6 : Si la page A fait un lien vers la page B, laquelle est inaccessible (404, 410, etc.), comment faut-il en tenir compte dans le calcul ? Doit-on considérer que ce lien ne compte pas dans le nombre de liens sortants de la page A ?

Tout lien sortant prend sa part de jus.

Par contre, sur mon dernier test (qui a plusieurs années), une >vraie< page servie par le serveur avec code http 4XX ou 5XX ne retransmet aucun jus, quels que soient les liens qu'elle contient.
Le "soft 404", lui retransmettait le jus reçu.

Mais donc le jus envoyé sur une erreur est perdu. Comme pour un lien nofollow.

Q7 : Si la page A fait un lien vers la page B, laquelle est interdite d'indexation (meta robots noindex, etc.), comment faut-il en tenir compte dans le calcul ? Doit-on considérer que ce lien ne compte pas dans le nombre de liens sortants de la page A ?

Tout lien compte toujours en sortie dans la répartition, donc là aussi il compte en sortie.

Par contre, deux comportements:
– si la page B est crawlée (noindex) ou a été crawlée un jour (avant disallow par robots.txt), alors elle retransmet son jus au travers des liens présents quand google l'a crawlée (test d'ancre imaginaire sur B possible)
– sinon, le jus est perdu.

Q8 : Si la page A fait un lien vers la page B, laquelle est interdite de crawl (blocage dans le fichier robots.txt), comment faut-il en tenir compte dans le calcul ? Doit-on considérer que ce lien ne compte pas dans le nombre de liens sortants de la page A ?

Exactement la réponse faite sur Q7

Q9 : Si la page A fait un lien nofollow vers la page B, comment faut-il en tenir compte dans le calcul ? A priori, d'après ce qu'avait déclaré Matt Cutts sur le PR Sculpting, il faut compter ce lien dans les liens sortants de A mais ne pas le compter dans les liens entrants de B. Est-ce aussi votre interprétation ?

Oui.

Q10 : Est-il correct d'utiliser un damping factor de 0,85 ? (formule d'origine du PageRank)

Je pense comme la loutre.

PS : j’aurais bien aimé voir les réponses au même type de questionnement pour les liens js.

Répondre
lagzor

@Olivier : Effectivement, je n’avais pas vu que l’on calculait le PR à partir d’un maillage interne.
Pour ma part, je vais répondre qu’à la question 6 pour laquelle je suis plutôt sûr de ma réponse:

Q6/ Si un lien est fait vers une erreur 404 ou 410, alors je pense que c’est une perte de jus. Même si l’erreur 404 affiche une page spéciale, cela n’est pas judicieux pour l’internaute alors Google va bien prendre en compte que cette page a un lien vers lui mais ne transmettra pas le jus. Cependant, la page A qui fait ce lien va perdre un peu de son jus, comme si elle l’avait transmit à une page existante.

Répondre
Sylvain Peyronnet

« J’ai bien compris ton conseil de regrouper tous les liens sortants externes en un seul noeud, mais peux-tu préciser ce que tu entends par « Il faut également faire le calcul avec une surface d’atterrissage externe pour la téléportation » ? »

Quand on calcul le PR il y a deux composants : la transmission par les liens, et la téléportation par le damping factor.
Quand on calcul les PR à l’interne, si on ne représente que les pages du site, les téléportations arrivent forcément sur le site, alors qu’en vérité sur le web les téléportations arrivent tout le temps à l’extérieur du site car la taille du site est marginale par rapport à celle de l’index. Si on ne rajouté pas des pages « fantomes » dans le calcul, non reliées au site, alors le calcul est faussé.

« D’ailleurs, la somme des « PRi » (PR internes) doit-elle toujours valoir 1 ? »

La somme des PR de toutes les pages qui sont prises en compte dans le calcul vaut toujours 1.

« Pour Q5 je ne suis pas sûr de te suivre. Je sais bien qu’on remarque qu’un lien qui passe par une redirection n’est pas aussi efficace qu’un lien direct. Je me rappelle aussi que Matt Cutts a confirmé que la 301 n’est pas aussi efficace qu’un lien direct, et certains ont pensé que l’écart d’efficacité était ce (1-d) doit 15%, mais est-ce aussi simple que ça ? Ne peut-on pas considérer dans mon exemple que A fait un lien vers C ? »

Oui, l’écart d’efficacité est bien ce 15% en plus, d’où mon 0,7725 (= 0,85 * 0,85) ;)

Après, il faut bien se rappeler que le PR est thématisé maintenant, et donc B étant en redirection, selon les choix fait par le moteur, il est probable qu’elle coupe le flux thématique, ce qui amortit plus.

« D’ailleurs, dans l’exemple Q5, ne peut-on pas considérer que la page B a du PR ? »

Oui, B a du PR, mais B n’est jamais accessible via le moteur ;)

 » Pour Q1 je règle le problème lors du crawl en bornant le nombre d’URLs que je vais garder. Si une URL se trouve 2 fois dans ce que je garde, alors j’ai un lien dans mon calcul qui compte double.

désolé, ce n’est pas très clair pour moi. selon toi, il faut compter combien de liens sortants pour A et combien de liens entrants pour B ? »

Au crawl je ne garde que les X premiers liens parsés (par exemple 250), par ailleurs je pondère selon l’emplacement (footer, menu, etc.).

 » la plupart des nouveaux procédés de calcul du pagerank font de la simulation de surfeur aléatoire, donc tout ce qui est crawlable compte

Je suis bien d’accord avec toi. C’est pourquoi j’aimerais ton avis sur la question Q8 ! »

Une astuce : avec un crawler prendre tout le site web, puis avec les logs ne garder que les pages accédées par GGbot.

Répondre
Frédéric CAUNES

C’est une question qui m’intéresse beaucoup,
Laurent Bourelly m’avait déjà donné l’adresse de Visibilis à ce sujet, j’avoue que je n’y ai pas passé assez de temps pour le comprendre vraiment, il faudra peut être que je m’y replonge, je compte aussi réaliser un outil perso si je ne trouve pas mon bonheur ailleurs.
J’ai fait un test avec Gephi cela m’a paru compliqué sans apporter complètement de réponse à mes questions.
Personnellement je trouve que comme certains l’ont dit la position du lien est plus importante que leur nombre, un challenge intéressant consisterait à mon avis à attribuer un poids différents aux liens des mega-menus, et bas de page et aux autres.

Répondre
serge esteves

Quelque chose qui n’a pas été précisé c’est que le calcul du pagerank interne prend vraiment son sens sur les pages vues par Google, c’est à dire qu’il faut croiser les pages de ton crawl avec les pages crawlées par Googlebot. Dans ce cas, en plus du PRi , on a le PRc (c=crawlées par Google). Parce que si Google
ne connait pas des pages, il risque pas de leur attribuer du pagerank.

Les deux données sont intéressantes dans tous les cas, reste des approximations forcément, mais ça reste utile surtout lorsque cette distribution est segmentée par catégories de pages, et ainsi voir si sa structure est correctement déséquilibrée.

Le graal ce serait de pouvoir calculer le pagerank interne selon le modèle du surfeur raisonnable, c’est sans doute possible en plus en prenant en compte quelques critères basiques du type position du lien, taille du lien et de croiser avec des données analytics. Ce sera toujours approximatif mais moins approximatif tout de même.

Répondre
Olivier Duffez

@Serge : en fait si, cette notion est presque abordée : j’ai justement posé des questions sur les URL non crawlables (toi tu parles des crawlées). Il s’avère qu’une URL non crawlable (a fortiori non crawlée) PEUT avoir du PR, vu qu’il dépend des liens entrants. Par contre, n’étant pas crawlée, elle ne risque pas de redistribuer le « jus ».
On voit bien qu’on pourrait imaginer calculer plusieurs formules de PRi :
– tenant compte de toutes les URL
– tenant compte uniquement des URL crawlables (qu’elles soient crawlées ou pas, on ne vérifie pas)
– tenant compte uniquement des URL crawlées

Qu’en penses-tu ?

Répondre
Serge esteves

Oui, une url non crawlée peux avoir du pr, mais j’ai bien dit « si google ne connait pas des pages il ne peut pas lui attribuer du pr », sachant que google peux connaitre l’existence d’une page sans la crawler.

Le pagerank interne en prenant en compte toutes les urls, c’est utile pour atteindre une structure idéale en faisant en sorte que google crawle un max de pages utiles.

Le pagerank interne en prenant en compte les urls crawlées par google et en tenant compte aussi des liens présents dans les pages crawlées (je ne l’avais pas précisé), ce que j’appelle prc, c’est plus proche du « vrai » pri à un instant t du taux de crawl. Et c’est utile pour voir la distribution actuelle du pagerank par la structure perçue par google.

Les 2 valeurs sont intérresantes à calculer de toute façon pour des objectifs différents, et reste des approximations

Répondre