La formule du PageRank de Google

Cet article traite d'un sujet ancien dans le référencement Google, mais toutes les informations sont justes et vérifiées régulièrement (dernier remaniement et mise à jour : octobre 2017).

Description de l’algorithme du PageRank

Le PageRank peut paraître mystérieux pour l’internaute qui découvre ce terme. Pourtant, vous verrez rapidement que cette notion est depuis toujours au coeur de l’algorithme de Google, et donc du classement des pages.

Formule PageRank — La formule initiale du PageRank décrite dans l'article de Sergei Brin et Larry Page, cofondateurs de Google.

Origine

A l’origine, le PageRank est un critère mathématique permettant de mesurer la popularité d’une page sur le web. Plus il est élevé, plus la page est censée être populaire (et donc intéressante pour l’internaute).

Depuis l'origine de Google, le PageRank (que l’on abrège en PR) est l’un des éléments pris en compte par l'algorithme de classement… mais ce n’est pas le seul !!! Il en existe plusieurs centaines...

Le PageRank est également utilisé par le moteur de recherche Google dans tout son processus. Ainsi, un site ayant une ou plusieurs page au PageRank élevé aura beaucoup d’avantages (il sera indexé plus souvent, et donc ses mises à jour seront rapidement disponibles dans Google).

Je vous invite à parcourir l'ensemble de ce dossier afin de bien comprendre l’algorithme. Lisez la rubrique sur les liens si ce n’est pas déjà fait, car elle sert de base à la compréhension du PageRank. Enfin, participez aux discussions dans le forum sur le PageRank et les liens…

La formule du PageRank (formule d'origine)

L'idée principale est que si une page A fait un lien vers une page B, alors c'est que la page A juge que la page B est suffisamment importante pour mériter d'être citée et d'être proposée aux visiteurs. Ce lien de A vers B augmente le PageRank de B.

Deux idées supplémentaires mais essentielles viennent la compléter :

l'augmentation de PageRank de la page B est d'autant plus importante que le PageRank de la page A est élevé. En d'autres termes, il est bien plus efficace d'avoir un lien depuis la page d'accueil de Google que depuis une page du site de votre petit cousin (ou alors c'est un génie en puissance !).
l'augmentation de PageRank de la page B est d'autant plus importante que la page A fait peu de liens. En d'autres termes, si la page A juge qu'il n'y a qu'une page qui mérite un lien, alors il est normal que le PageRank de la page B augmente plus que dans le cas où de nombreuses pages obtiennent un lien.

Maintenant que vous connaissez les principes du PageRank, passons à sa formulation mathématique... Nous nous basons sur un article rédigé par les deux fondateurs de Google (1), même si depuis l'algorithme du PageRank a bien évolué. Cela étant, c'est important de connaître la base.

Soient A1, A2, ..., An : n pages pointant vers une page B. Notons PR(Ak) le PageRank de la page Ak, N(Ak) le nombre de liens sortants présents sur la page Ak, N le nombre de pages identifiées sur le web et d un facteur compris entre 0 et 1, fixé en général à 0,85.

Alors le PageRank de la page B se calcule à partir du PageRank de toutes les pages Ak de la manière suivante :

PR(B) = (1-d)/N + d x ( PR(A1) / N(A1) + ... + PR(An) / N(An) )

Comme vous pouvez vous en rendre compte, cette formule est à la fois simple et compliquée. Simple parce qu'elle ne dépend que de quelques termes, compliquée parce qu'elle récursive

"récursive" ? qu'est-ce que ça veut dire ?

Simplement que pour calculer le PageRank d'une page, il faut avoir calculé celui de toutes les pages pointant vers elle. Mais alors comment commencer ?

En fait c'est très simple, il suffit de commencer avec des valeurs arbitraires de PageRank (par exemple 1 pour toutes les pages). Le choix de cette valeur n'a pas d'influence sur le résultat final à condition que toutes les pages commencent avec la même valeur.

Une application de la formule permet de calculer un nouveau PageRank pour chaque page, plus proche de la réalité que la valeur par défaut que nous avons choisie au début.

Ensuite nous recommençons à calculer les PageRank de toutes les pages en appliquant de nouveau la formule, mais en partant cette fois des valeurs que nous avons calculées précédemment. Après un certain nombre d'itérations, le système converge : les valeurs de PageRank de chaque page ne bougent plus entre deux itérations.

En pratique la convergence est obtenue au bout de plusieurs dizaines d'itérations (tout dépend du nombre de pages considérées).

La modélisation du surfeur aléatoire

Il existe une autre façon d’interpréter le PageRank, plus "imagée".

C'était d’ailleurs peut-être la base de la formulation de l’algorithme !

Elle est basée sur la modélisation du surf aléatoire d’un internaute sur le web. Je m'explique...

Imaginez qu’un internaute se promène sur le web en parcourant des pages, passant de l’une à l’autre en cliquant au hasard sur un lien. Il se peut qu’il se retrouve bloqué dans un groupe de pages liées entre elles mais fermées sur le reste du web. Dans ce cas il saute aléatoirement sur une autre page du web. Ce brusque changement peut aussi provenir directement du promeneur qui s’est lassé des pages qu’il visitait, ou qui n’a pas trouvé ce qu’il cherchait…

Le PageRank d’une page peut alors être vu comme la probabilité qu’à un instant donné ce surfeur soit précisément sur cette page.

Cette probabilité sera d’autant plus forte que de nombreuses autres pages le ramènent dessus, surtout si ces pages sont elles aussi importantes : c’est le deuxième terme de la formule.

Le premier terme modélise la probabilité qu’il reste sur la même page, sans suivre de lien sortant. Le facteur d dans la formule (damping factor) peut donc être vu comme la probabilité que le surfeur saute sur une autre page. C’est aussi un facteur indiquant le pourcentage de PageRank « transmis » aux pages liées.

Voyez aussi l'étude sur le BlockRank

A retenir sur la formule initiale du PageRank

Le PageRank d’une page B ne dépend que de 3 facteurs :

le nombre de pages Ak faisant un lien vers B,
le PageRank de chaque page Ak,
le nombre de liens sortants de chaque page Ak

Il ne dépend donc pas des éléments suivants :

le trafic des sites faisant un lien vers B
le nombre de clics sur les liens vers B dans les pages Ak
le nombre de clics sur les liens vers B dans les pages de résultats sur Google.

Maintenant que vous connaissez cette formule, je poursuis avec une question qui intéresse beaucoup de monde...

Comment augmenter son PageRank ?

Pour augmenter le PageRank d’une de page, il faut se débrouiller pour qu'elle reçoive plus de liens qu'avant. Ces liens (backlinks) peuvent être internes (issus du même site) ou externes.

Idées pour obtenir des liens et augmenter le PR

Voici quelques conseils à ce sujet :

essayez d’obtenir un grand nombre de liens vers votre page
choisissez en priorité des pages ayant un bon PageRank. Attention à la distinction entre le PageRank d’un site et celui de ses pages : le PageRank d’un site est par abus de langage celui de sa page d’accueil, mais le lien vers votre page sera peut-être situé sur une autre page ayant un très mauvais PageRank.
choisissez des pages ayant le moins de liens sortants possible (en théorie surtout si leur PageRank est faible, mais sans pouvoir le mesurer ce n'est pas évident)
vérifiez que la page qui fait le lien est bien indexée par Google, sinon son PageRank vaut zéro et cela ne vous apportera rien. En particulier, elle ne doit pas contenir de directive indiquant aux robots de ne pas l’indexer (fichier robots.txt ou balise META robots), et elle ne doit pas être orpheline (sinon Google ne peut pas l’indexer). Le plus simple est de taper la commande avancée info:https://www.example.com/page avec l'URL complète de la page à tester
vous pouvez obtenir en général facilement des liens depuis les annuaires, mais le problème est qu'ils sont rarement perçus par Google comme de qualité.

Attention ! Nous ne sommes plus à l'époque où il fallait le maximum de liens entrants, quelle que soit leur qualité. Aujourd'hui il faut absolument privilégier des liens cohérents, intéressants pour l'internaute, situés au coeur du contenu éditorial, sur des pages de même thématique.

De l’importance de vos liens internes

Avoir des liens d’autres sites, c’est bien mais c’est dur à contrôler. Par contre les liens entre vos pages, vous pouvez et devez y attacher de l’importance.

Ainsi, il est crucial de bien organiser son propre site pour optimiser le PageRank de toutes vos pages. Vous avez bien compris en lisant la formule du PageRank que chaque page possède une réserve de «points» (son PageRank). A vous ensuite de décider à quelles autres pages elle en fait profiter, en leur faisant un lien.

Prenons l’exemple de votre page d’accueil qui a réussi à avoir un bon PageRank grâce aux échanges de liens avec d’autres sites. Vos autres pages peuvent en bénéficier si vous faites un lien depuis la page d’accueil. Mais attention, les mêmes règles s’appliquent : si vous faites beaucoup de liens, la part de PageRank transmise à chacune de vos autres pages sera plus faible.

Quitte à optimiser son propre site, il vaut mieux donc éviter de faire des liens sortants (vers d’autres sites) sur vos pages qui ont un bon PageRank, car ce sera autant de moins transmis à vos autres pages. Il est donc assez classique de faire un lien depuis votre page d’accueil vers une page spécifique qui comportera des liens sortants.

A l’inverse, vous pouvez également construire votre site de manière à améliorer le PageRank de certaines de vos pages (au détriment d’autres). Par exemple il est commun de chercher à avoir le meilleur PageRank possible pour votre page d’accueil. Faites-donc un lien vers celle-ci sur chacune des pages de votre site, en mettant par exemple votre logo en haut à gauche.

OK, bon... mais comment aller plus loin pour l'augmentation du PageRank ?

Optimiser son PageRank par le maillage interne

Le "jus" de lien !

Pour bien comprendre ce qui suit, il faut avoir en tête que le PageRank sera d’autant plus grand qu’on a de liens de bonne qualité. On en distingue deux sortes :

les liens externes (d’autres sites faisant des liens vers vos pages)
les liens internes (entre vos propres pages)

Concrètement, l’ensemble des liens externes entrants vous apporte un « capital de PageRank« . Il s’agit d’une certaine quantité de cette matière très recherchée qu’est le PageRank…

On appelle ça aussi du "jus" ou de la popularité.

Optimiser le PageRank à l’intérieur de votre site ne signifie pas l’augmenter mais répartir votre "capital de PageRank" dans vos pages. Vous comprendrez peut-être mieux pourquoi il est capital d’obtenir des liens externes, même si c’est un facteur sur lequel vous pouvez difficilement agir (il faut convaincre d’autres éditeurs de sites de faire des liens).

Pour en savoir plus : lisez maillage interne, c'est quoi ?

Ceci étant dit, passons aux conseils ! Encore une fois ceux-ci vous paraîtront très naturels, mais parfois on oublie de les appliquer. Si on ne devait citer que les deux conseils les plus importants, ce serait ceux-là :

bien choisir la structure des liens entre les pages,
bien choisir le format de chaque lien (texte, image, etc.).

Choisir la structure des liens entre les pages

Pour le premier point, il faut évidemment vérifier qu’aucune page n’est orpheline. Ensuite, en supposant que la page la mieux pourvue en PageRank est votre page d’accueil, il faut faire des liens de celle-ci vers chacune de vos pages de niveau 2 (sans doute les plus importantes après la page d’accueil). Répétez ce schéma sur chacun de vos niveaux de hiérarchie (si possible, ne dépassez pas 3 voire 4 niveaux).

Plus une page est profonde, moins elle est performante en référencement lisez mon étude détaillée

Vous pouvez également croiser les liens entre différentes parties du site, à condition qu’il y ait un intérêt pour le visiteur (il y en aura alors aussi pour les robots...). En effet en général dans ce cas les pages traiteront de notions semblables ou complémentaires, avec les mêmes mots-clés. Je fais référence ici à la notion de silo thématique, c'est-à-dire un groupe de pages traitant du même sujet. C'est une des possibilités d'optimisation du maillage interne.

A propos de structure de liens internes, lisez mon dossier sur le calcul du PageRank interne

Choisir le format de chaque lien

Pour le second point, respectez scrupuleusement les consignes de base. Les mots servant à créer le lien doivent être significatifs. Il est inefficace de faire un lien (interne) comme celui-ci :

cliquez <a href="page2.htm">ici</a> pour la liste des voitures à vendre.

Faites plutôt dans ce cas un lien comme celui-ci :

Consultez <a href="page2.htm">notre liste de voitures à vendre</a>.

Tous les liens doivent utiliser la balise <a> du HTML plutôt que des commandes javascript qui ne sont parfois pas prises en compte par les moteurs de recherche.

Remarque : les mots utilisés dans le lien (anchor text) n'ont aucun impact sur le PageRank (formule d'origine), mais un impact fort sur le référencement naturel (optimisation de la longue traîne). J'ai ma méthode IATG pour optimiser les ancres de liens internes.

Comment mesurer le PageRank ?

Le PageRank calculé en interne chez Google et celui diffusé à l'extérieur

Depuis que Google existe, son algorithme utilise le PageRank, même si désormais c'est sous une forme qui a largement évolué. Disons qu'il est fort probable que Google calcule encore de nos jour le PageRank de chaque page web. En tout cas de chaque page crawlée par Googlebot.

Peut-on connaître la valeur exacte du PageRank d'une page ? Non ! Il n'y a aucun moyen de le savoir, car Google ne la communique pas.

Le PageRank de la barre d'outils

Pendant des années, Google a décidé de fournir une version très simplifiée du PageRank, sous la forme d'un nombre entier entre 0 et 10. Cette valeur était diffusée dans sa barre d'outils sous la forme d'une barre verte :

PageRank toolbar — Exemple de PageRank affiché dans une barre d'outils : ici dans Firefox

Les années passant, Google a diminué la fréquence de mise à jour de ce que j'appelle le Toolbar PageRank. Puis en 2012, ça devait être la fin des mises à jour. Pourtant en 2013 le PageRank fut une dernière fois mis à jour (mais on apprit que cette mise à jour avait été faite sans être prévue, une sorte de "mise en prod collatérale" ?). En 2014, on nous avait promis la mort du PageRank des barres d'outils.

Pendant toutes ces années, un très grand nombre d'outils s'est mis à récupérer cette valeur. Même si ce n'était pas la vraie valeur, s'était toujours ça de pris...

Mais en mars 2016, Google a cessé définitivement de diffuser le "Toolbar PageRank".

Le PageRank de l'annuaire Google (basé sur DMOZ)

A l'époque reine du PageRank (2000 - 2005 environ), Google proposait un annuaire de sites, appelé parfois "répertoire". En fait, il s'agissait d'une copie (autorisée) de DMOZ.

A côté de chaque site inscrit (généralement la page d'accueil), Google affichait une indication de PageRank. On pouvait même trier les sites au sein d’une catégorie par PageRank décroissant (plutôt que par ordre alphabétique).

Aussi étonnant que cela puisse paraître, les deux échelles de PageRank n'étaient pas les mêmes !

En effet dans le répertoire on ne trouvait que 7 valeurs possibles. Et en poussant l'analyse jusqu'au bout, les curieux avaient constaté qu'il existait même un PageRank dans le répertoire supérieur au maximum possible. Devinez qui se l'était attribué ? Le Roi Google bien entendu...

Le schéma suivant résume les 2 échelles de PageRank (barre d'outils à gauche, répertoire Google à droite) :

Attention, il n'y a aucun lien entre la colonne de gauche et celle de droite (par exemple, il ne faut pas déduire de cette image qu'un PR9 Toolbar équivaut à un PR7 Directory).

Comme vous l'avez deviné, l'annuaire Google basé sur DMOZ a disparu depuis.

Si vous souhaitez en discuter, rejoignez la discussion sur les 2 échelles de PageRank dans le forum.

Conclusion sur le PageRank

En 2002, le PageRank restait un algorithme complexe et assez mal connu, surtout que sa version modifiée était tenue secrète par leurs auteurs, pour des raisons évidentes de concurrence industrielle.

Malgré tout, toute personne s'intéressant au SEO doit connaître les fondements de l'algorithme de Google, à savoir le PageRank.

Aujourd'hui, le PageRank n’est qu’un des aspects exploités par Google : avoir un bon PageRank ne suffit pas à être bien placé !

Le plus important désormais, c'est de créer du contenu qui satisfait vos visiteurs, c’est la réelle valeur ajoutée de votre site. Si vous décevez ceux qui viennent de Google, votre référencement pourrait en pâtir...

Lisez également nos autres conseils pour optimiser les liens, en particulier les liens textes, ou bien la façon de choisir son titre ou ses balises META.

Vous avez maintenant sûrement de nombreuses questions… Peut-être trouverez-vous la réponse dans la FAQ (Foire Aux Questions), sinon allez la poser directement sur le forum PageRank et netlinking !

(1) The Anatomy of a Large-Scale Hypertextual Web Search Engine, Sergey Brin et Lawrence Page, Standford University, www-db.stanford.edu/~backrub/google.html

Cet article vous a-t-il plu ?

Note : 3.9 (9 votes)

Cliquez pour voter !

Si vous avez des questions, posez-les dans le forum WebRankInfo.

Si vous préférez du consulting, j'en propose sur mon site WebRankExpert.

Un Commentaire

Serge Courrier 22 octobre 2017

Merci pour l'article.
Je vous rappelle l'existence d'un article de janvier 1998 où PageRank est défini, notamment par Sergey Brin et Lawrence (Larry) Page, les deux fondateurs de Google).
"The PageRank Citation Ranking: Bringing Order to the Web"
http://ilpubs.stanford.edu/422/1/1999-66.pdf

Répondre

Tout savoir sur le PageRank, critère historique de l'algo de Google