💥 on fracasse les prix #SEO pendant le Black Friday

Détails : Nouvelle offre RM Tech Découverte

La formule initiale du PageRank
Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Tout savoir sur le PageRank, critère historique de l’algo de Google

Le PageRank est une méthode inventée par Google pour mesurer l’importance relative des pages du web, que l’on appelle souvent la popularité. Elle est basée sur la topologie du web, c’est-à-dire sur l’étude des liens entre les pages. Voici des explications très complètes et à jour.

Cet article traite d’un sujet ancien dans le référencement Google, mais toutes les informations sont justes et vérifiées régulièrement (dernier remaniement et mise à jour : octobre 2017).

Description de l’algorithme du PageRank

Le PageRank peut paraître mystérieux pour l’internaute qui découvre ce terme. Pourtant, vous verrez rapidement que cette notion est depuis toujours au coeur de l’algorithme de Google, et donc du classement des pages.

Formule PageRank
La formule initiale du PageRank décrite dans l’article de Sergei Brin et Larry Page, cofondateurs de Google.

Origine

A l’origine, le PageRank est un critère mathématique permettant de mesurer la popularité d’une page sur le web. Plus il est élevé, plus la page est censée être populaire (et donc intéressante pour l’internaute).

Depuis l’origine de Google, le PageRank (que l’on abrège en PR) est l’un des éléments pris en compte par l’algorithme de classement… mais ce n’est pas le seul !!! Il en existe plusieurs centaines…

Le PageRank est également utilisé par le moteur de recherche Google dans tout son processus. Ainsi, un site ayant une ou plusieurs page au PageRank élevé aura beaucoup d’avantages (il sera indexé plus souvent, et donc ses mises à jour seront rapidement disponibles dans Google).

Je vous invite à parcourir l’ensemble de ce dossier afin de bien comprendre l’algorithme. Lisez la rubrique sur les liens si ce n’est pas déjà fait, car elle sert de base à la compréhension du PageRank. Enfin, participez aux discussions dans le forum sur le PageRank et les liens

La formule du PageRank

L’idée principale est que si une page A fait un lien vers une page B, alors c’est que la page A juge que la page B est suffisamment importante pour mériter d’être citée et d’être proposée aux visiteurs. Ce lien de A vers B augmente le PageRank de B.

Deux idées supplémentaires mais essentielles viennent la compléter :

  • l’augmentation de PageRank de la page B est d’autant plus importante que le PageRank de la page A est élevé. En d’autres termes, il est bien plus efficace d’avoir un lien depuis la page d’accueil de Google que depuis une page du site de votre petit cousin (ou alors c’est un génie en puissance !).
  • l’augmentation de PageRank de la page B est d’autant plus importante que la page A fait peu de liens. En d’autres termes, si la page A juge qu’il n’y a qu’une page qui mérite un lien, alors il est normal que le PageRank de la page B augmente plus que dans le cas où de nombreuses pages obtiennent un lien.

Maintenant que vous connaissez les principes du PageRank, passons à sa formulation mathématique… Nous nous basons sur un article rédigé par les deux fondateurs de Google (1), même si depuis l’algorithme du PageRank a bien évolué. Cela étant, c’est important de connaître la base.

Soient A1, A2, ..., An : n pages pointant vers une page B. Notons PR(Ak) le PageRank de la page Ak, N(Ak) le nombre de liens sortants présents sur la page Ak, et d un facteur compris entre 0 et 1, fixé en général à 0,85.

Alors le PageRank de la page B se calcule à partir du PageRank de toutes les pages Ak de la manière suivante :

PR(B) = (1-d) + d x ( PR(A1) / N(A1) + ... + PR(An) / N(An) )

Comme vous pouvez vous en rendre compte, cette formule est à la fois simple et compliquée. Simple parce qu’elle ne dépend que de quelques termes, compliquée parce qu’elle récursive

« récursive » ? qu’est-ce que ça veut dire ?

Simplement que pour calculer le PageRank d’une page, il faut avoir calculé celui de toutes les pages pointant vers elle. Mais alors comment commencer ?

En fait c’est très simple, il suffit de commencer avec des valeurs arbitraires de PageRank (par exemple 1 pour toutes les pages). Le choix de cette valeur n’a pas d’influence sur le résultat final à condition que toutes les pages commencent avec la même valeur.

Une application de la formule permet de calculer un nouveau PageRank pour chaque page, plus proche de la réalité que la valeur par défaut que nous avons choisie au début.

Ensuite nous recommençons à calculer les PageRank de toutes les pages en appliquant de nouveau la formule, mais en partant cette fois des valeurs que nous avons calculées précédemment. Après un certain nombre d’itérations, le système converge : les valeurs de PageRank de chaque page ne bougent plus entre deux itérations.

En pratique la convergence est obtenue au bout de plusieurs dizaines d’itérations (tout dépend du nombre de pages considérées).

La modélisation du surfeur aléatoire

Il existe une autre façon d’interpréter le PageRank, plus « imagée ».

C’était d’ailleurs peut-être la base de la formulation de l’algorithme !

Elle est basée sur la modélisation du surf aléatoire d’un internaute sur le web. Je m’explique…

Imaginez qu’un internaute se promène sur le web en parcourant des pages, passant de l’une à l’autre en cliquant au hasard sur un lien. Il se peut qu’il se retrouve bloqué dans un groupe de pages liées entre elles mais fermées sur le reste du web. Dans ce cas il saute aléatoirement sur une autre page du web. Ce brusque changement peut aussi provenir directement du promeneur qui s’est lassé des pages qu’il visitait, ou qui n’a pas trouvé ce qu’il cherchait…

Le PageRank d’une page peut alors être vu comme la probabilité qu’à un instant donné ce surfeur soit précisément sur cette page.

Cette probabilité sera d’autant plus forte que de nombreuses autres pages le ramènent dessus, surtout si ces pages sont elles aussi importantes : c’est le deuxième terme de la formule.

Le premier terme modélise la probabilité qu’il reste sur la même page, sans suivre de lien sortant. Le facteur d dans la formule (damping factor) peut donc être vu comme la probabilité que le surfeur saute sur une autre page. C’est aussi un facteur indiquant le pourcentage de PageRank « transmis » aux pages liées.

A retenir sur la formule initiale du PageRank

Le PageRank d’une page B ne dépend que de 3 facteurs :

  • le nombre de pages Ak faisant un lien vers B,
  • le PageRank de chaque page Ak,
  • le nombre de liens sortants de chaque page Ak

Il ne dépend donc pas des éléments suivants :

  • le trafic des sites faisant un lien vers B
  • le nombre de clics sur les liens vers B dans les pages Ak
  • le nombre de clics sur les liens vers B dans les pages de résultats sur Google.

Maintenant que vous connaissez cette formule, je poursuis avec une question qui intéresse beaucoup de monde…

Comment augmenter son PageRank ?

Pour augmenter le PageRank d’une de page, il faut se débrouiller pour qu’elle reçoive plus de liens qu’avant. Ces liens (backlinks) peuvent être internes (issus du même site) ou externes.

Idées pour obtenir des liens et augmenter le PR

Voici quelques conseils à ce sujet :

  • essayez d’obtenir un grand nombre de liens vers votre page (lisez mes conseils à ce sujet)
  • choisissez en priorité des pages ayant un bon PageRank. Attention à la distinction entre le PageRank d’un site et celui de ses pages : le PageRank d’un site est par abus de langage celui de sa page d’accueil, mais le lien vers votre page sera peut-être situé sur une autre page ayant un très mauvais PageRank.
  • choisissez des pages ayant le moins de liens sortants possible (en théorie surtout si leur PageRank est faible, mais sans pouvoir le mesurer ce n’est pas évident)
  • vérifiez que la page qui fait le lien est bien indexée par Google, sinon son PageRank vaut zéro et cela ne vous apportera rien. En particulier, elle ne doit pas contenir de directive indiquant aux robots de ne pas l’indexer (fichier robots.txt ou balise META robots), et elle ne doit pas être orpheline (sinon Google ne peut pas l’indexer). Le plus simple est de taper la commande avancée info:https://www.example.com/page avec l’URL complète de la page à tester
  • vous pouvez obtenir en général facilement des liens depuis les annuaires, mais le problème est qu’ils sont rarement perçus par Google comme de qualité.
Attention ! Nous ne sommes plus à l’époque où il fallait le maximum de liens entrants, quelle que soit leur qualité. Aujourd’hui il faut absolument privilégier des liens cohérents, intéressants pour l’internaute, situés au coeur du contenu éditorial, sur des pages de même thématique.

De l’importance de vos liens internes

Avoir des liens d’autres sites, c’est bien mais c’est dur à contrôler. Par contre les liens entre vos pages, vous pouvez et devez y attacher de l’importance.

Ainsi, il est crucial de bien organiser son propre site pour optimiser le PageRank de toutes vos pages. Vous avez bien compris en lisant la formule du PageRank que chaque page possède une réserve de « points » (son PageRank). A vous ensuite de décider à quelles autres pages elle en fait profiter, en leur faisant un lien.

Prenons l’exemple de votre pag