Vous êtes ici : Dossiers référencement > Actualité

Membre WebRankInfo ?

S'inscrire Aide

Yahoo introduit un calcul de PageRank tenant compte du surf des internautes

Le PageRank est dépassé ! En tout cas celui décrit dans l'article de référence rédigé par les cofondateurs de Google. Mais quelle est la formule désormais utilisée par Google ? Peut-être utilisent-ils déjà d'autres données que les liens entre pages web, par exemple des données représentant l'activité des internautes sur le web ? Microsoft a publié en juillet 2008 un article présentant leur algorithme du BrowseRank qui prétend justement surpasser le PageRank grâce à la prise en compte du temps passé sur chaque page. En fait c'est aussi une voie explorée par Yahoo, décrite dans un brevet intitulé User-sensitive pagerank, obtenu le 10 janvier 2008 chez le US Patent and Trademark Office. Explications…

Le brevet de Yahoo : User Sensitive PageRank

Le brevet a été déposé par Yahoo en juin 2006 et validé le 10 janvier 2008. Les auteurs sont Pavel Berkhin, Usama M. Fayyad, Prabhakar Raghavan et Andrew Tomkins. Le résumé du brevet est le suivant :

Techniques are described for generating an authority value of a first one of a plurality of documents. A first component of the authority value is generated with reference to outbound links associated with the first document. The outbound links enable access to a first subset of the plurality of documents. A second component of the authority value is generated with reference to a second subset of the plurality of documents. Each of the second subset of documents represents a potential starting point for a user session. A third component of the authority value is generated representing a likelihood that a user session initiated by any of a population of users will end with the first document. The first, second, and third components of the authority value are combined to generate the authority value. At least one of the first, second, and third components of the authority value is computed with reference to user data relating to at least some of the outbound links and the second subset of documents.

Un des schémas du brevet de Yahoo : User Sensitive PageRank Un des schémas du brevet de Yahoo : User Sensitive PageRank

Les faiblesses de l'algorithme initial du PageRank

Les auteurs du brevet déposé par Google commencent par faire remarquer certains problèmes dans la formule initiale du PageRank :

  • Tous les liens ne se valent pas et ne devraient pas compter autant : par exemple les liens disclaimer (mise en garde) ou ceux qui pointent vers les mentions légales (c'est pour ça que certains utilisent le nofollow sur ces liens)
  • Les internautes ne choisissent pas au hasard une page web quand ils quittent un site : dans la formule initiale du PageRank, il est prévu que de temps en temps, quand l'internaute en a marre du site sur lequel il est, saute aléatoirement pour aller sur une autre page du web. C'est la partie (1-d) dans la formule. Il est pourtant évident que dans ce cas, il est plus probable que l'internaute aille sur un (gros) site connu d'une page interne au fin fond d'un (petit) site perso…
  • Les internautes ne choisissent pas les sites à fort TrustRank quand ils quittent un site : de la même manière, quand un internaute quitte un site pour aller sur un autre sans cliquer sur un lien, il ne va pas forcément aller sur un site à fort TrustRank. L'algorithme du TrustRank permet surtout de combattre le spamdexing mais il ne représente pas vraiment le comportement réel des internautes.
  • Les pages web évoluent : une page peut changer de contenu à tout moment, par exemple si le site est racheté ou plus simplement si les objectifs de la page sont modifiés. Ces changements évoluent à des fréquences très variables selon les sites, et le PageRank devrait en tenir compte. Je précise qu'il ne faut tout de même pas oublier que le PageRank est recalculé très souvent en interne chez Google…).

Le brevet du PageRank basé sur le comportement des internautes

Pour corriger les défauts listés précédemment, ce brevet propose d'utiliser des données issues de l'activité des internautes (la façon dont ils surfent sur le web) :

  • La valeur d'un lien entrant dépend du trafic : le poids d'un backlink dans l'algorithme peut dépendre du nombre d'internautes qui l'ont suivi. Je pense donc que les liens vraiment destinés aux internautes auront beaucoup plus de poids que ceux créés spécialement pour optimiser le référencement.
  • La partie téléportation dans la formule initiale (le fameux (1-d)) peut dépendre elle aussi des données sur le trafic
  • Le degré de satisfaction de l'internaute pour la page en cours de consultation peut être pris en compte (Yahoo n'explique pas précisément comment l'évaluer)

Ces trois nouvelles composantes sont utilisées pour calculer un indice d'autorité (authority value) pour chaque page du web, en remplacement du PageRank.

D'autres éléments sont abordés dans ce brevet, notamment :

  • Les données utilisateurs prises en compte dans les calculs peuvent être calculées sur un échantillon d'utilisateurs sélectionnés selon différents critères (âge, sexe, revenus, emplacement géographique, habitudes de surf, etc.). On pourrait imaginer que des valeurs différentes de ce nouveau PageRank seraient utilisées pour des internautes de régions différentes. On ne sait pas vraiment comment ces données concernant les internautes sont récoltées…
  • L'algorithme pourrait se baser sur la façon dont les internautes visitent des pages de différents blocs (un bloc étant un site web, un nom d'hôte ou un nom de domaine). L'analyse de ces données de surf pourrait par exemple améliorer l'utilisation des blocs dans le calcul du PageRank
  • De nos jours, le PageRank est utilisé dans l'algorithme qui sélectionne dans quel ordre il faut crawler le web (en gros, une page à fort PageRank a plus de chances d'être crawlée plus souvent). Si le PageRank tient compte de données utilisateurs, l'utilisation du PageRank dans le crawl permettra d'améliorer encore ce crawl.

Mon point de vue sur ce nouveau PageRank

Voici mes premières conclusions :

  • Yahoo propose une nouvelle façon de calculer le PageRank, dans laquelle la popularité n'est pas seulement mesurée mathématiquement en termes de liens, mais aussi comme tout le monde s'y attend en termes de trafic généré par ces liens. Certes, cela peut paraître naturel de mesurer la popularité d'une page en fonction du trafic reçu en provenance des backlinks, mais réussir à le mesurer pour en tenir compte est une autre paire de manches !
  • En prévoyant de tenir compte du trafic généré par un backlink, ce brevet confirme ce que je conseille depuis longtemps : les liens les plus efficaces sont ceux intégrés au cœur du contenu. A l'inverse, un lien en bas de page risque de plus en plus d'être insignifiant pour le référencement.
  • Si Yahoo utilise réellement un PageRank personnalisé en fonction de critères aussi spécifiques que l'âge de l'internaute, son sexe, son emplacement géographique, alors d'une part on pourra vraiment jeter à la poubelle tous les outils d'affichage du PageRank, et d'autre part il sera impossible d'analyser l'influence de ce nouveau PageRank dans le positionnement.
  • Même si ce brevet est associé à Yahoo, il est évident que les ingénieurs de Google l'ont déjà testé depuis des mois. Peut-être même qu'ils exploitent déjà certaines idées décrites ici…

Je discute également de ces évolutions autour du PageRank dans ma formation (surtout dans le module de netlinking), pendant laquelle les participants peuvent me poser de nombreuses questions. Si cela vous intéresse, consultez le site Ranking Metrics pour connaître les prochaines dates.

Pour en savoir plus

On discute du brevet User Sensitive PageRank de Yahoo dans le forum WebRankInfo.

Olivier Duffez, Mercredi 10 septembre 2008


Formation référencement et webmarketing

Vous souhaitez sans doute améliorer votre référencement, avez-vous pensé à suivre une formation spécialisée sur le référencement naturel ? En 2008, plus de 700 entreprises ont assisté à nos différentes sessions, la plupart faisant financer ces journées par la formation professionnelle (OPCA). Orange Labs nous a décerné un taux de satisfaction des participants de 90% (octobre 2008).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans la profession, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, cliquez ici pour consulter le site de Ranking Metrics (organisme de formation agréé).


Lectures recommandées sur ce thème :



4 commentaires sur “Yahoo introduit un calcul de PageRank tenant compte du surf des internautes”

  1. neuneu dit :

    "Yahoo n’explique pas précisément comment l’évaluer" > je pense que google a lancé Chrome pour palier à ce problème, non?

  2. gif dit :

    Neuneu, oui c’est peut être une solution. Pour le Pagerank c’est peut être un truc bête mais nous ne pouvons pas le savoir. Il faut se faire une idée de toute façon. Quand a cet article, il est merveilleux comme les autres articles qu’Olivier ajoute tous les jours. La moindre des choses c’est de te dire, un grand Merci pour les infos. Je n’hésite pas pour te le dire. Bravo!

  3. Shanghai dit :

    J’ai une question: Aujourd’hui IE 8, FireFox 3,1 et Chrome ont tous un mode "Privée" qui permet de ne laissé aucune trace, l’idée de Yahoo semble valable, mais ne va t’elle pas mourir dans l’oeuf ?

    Et si Google a lancé Chrome pour palier à ce problème, ils ne pourront pas vraiment avoir de chiffre véridique si leur fureteur est seulement utilisé par moins de 10% de la population du web…

    Très instructif cet article. Merci !

  4. Olivier Duffez dit :

    Pourquoi dites-vous que Google a lancé Chrome pour pallier ce problème ? (au passage on ne dit pas "pallier à quelque chose" mais "pallier quelque chose") Faut pas devenir parano et penser que tout ce que vous ferez avec Chrome sera connu de Google !!!

    Les algos de type BrowseRank ou User Sensitive PageRank n’ont pas besoin de se baser sur les données de navigation de la majorité des internautes, un échantillon suffit s’il est assez représentatif (comme le font les instituts de sondages). Les utilisateurs ayant la barre d’outils peuvent par exemple suffire.

Laisser une réponse

Hébergement web

Sivit

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo (+ de 3 millions de visites/mois). Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.

A partir de 1,90 EUR HT/mois.

A la une sur WebRankInfo

Formation au référencement

Découvrez le programme de formation au référencement le plus complet : méthodologie d'optimisation du référencement Google, sites dynamiques, stratégies de liens, blogs, formation juridique Internet, Google Analytics, taux de transformation, ROI, etc.

Ce cycle de formation peut être pris en compte par votre budget formation... profitez-en !

Cette formation est assurée notamment par Olivier Duffez, créateur du site WebRankInfo et consultant indépendant en référencement.

Détails et inscription

Logiciel de pro

Vous cherchez un bon logiciel pour effectuer le suivi du référencement ? Je vous conseille AgentWebRanking, le logiciel leader sur le marché, développé par une entreprise française et vendu dans le monde entier depuis 1998.
En tant que consultant en référencement, je l'utilise pour mes prestations de conseil en référencement professionnel.

Téléchargement télécharger le logiciel de référencement AgentWebRanking