Les avancées techniques du BrowseRank

Pour développer leur algorithme, les chercheurs de Microsoft Research Asia (Bin Gao, Tie-Yan Liu et Hang Li) sont partis de la faiblesse des modèles de calcul de popularité basés uniquement sur le graphe des liens entres les milliards de pages que constituent le web. Ils expliquent que ces modèles (dont le plus célèbre représentant est certainement le PageRank) ne représentent pas assez bien la réalité, puisqu'ils ignorent le comportement des internautes. Le Browse Rank est donc un indice d'importance d'une page calculé à la fois à partir du maillage de liens mais aussi des clics sur ces liens, et du temps passé sur les pages d'arrivée :

  • plus il y a d'internautes qui sont arrivés sur une page en ayant cliqué sur un lien, plus cette page est importante
  • plus ces internautes sont restés longtemps sur cette page, plus elle est importante.

Outre ces 2 innovations algorithmiques, les chercheurs disent que leur modélisation représente mieux la nature du web (que celle utilisée pour le calcul du PageRank).

BrowseRank

Illustration du BrowseRank (image tirée de l'article publié par les chercheurs)

Comment Microsoft récolte les données nécessaires au BrowseRank

D'un point de vue pratique, l'algorithme du BrowseRank nécessite l'accès à des données issues du surf des internautes. C'est chose possible avec les barres d'outils que proposent la plupart des grands moteurs de recherche (MSN/Live dans le cas présent mais aussi Google ou Yahoo). Les utilisateurs de ces barres d'outils ont sans doute oublié qu'ils ont accepté de transmettre aux moteurs des informations sur les pages qu'ils visitent, mais ils sont pourtant des millions à fournir ainsi en permanence ces données.

Bien entendu, pour des raisons de confidentialité, les données personnelles ne sont pas exploitées par le BrowseRank ; d'ailleurs elles ne sont pas vraiment nécessaires.

Performances du BrowseRank

D'après les chercheurs, leur algorithme est plus performant que le PageRank et le TrustRank, aussi bien pour aider un moteur de recherche à classer les pages par pertinence que pour identifier le spam. Ils ont effectué des tests sur un échantillon de 10.000 sites web, que des utilisateurs ont analysé pour indiquer s'ils les considéraient comme du spam ou pas. Au passage, si quelqu'un peut m'expliquer comment ces chercheurs peuvent calculer le TrustRank, je suis preneur ! Cet algorithme utilise en effet une sélection manuelle de sites jugés comme étant absolument dignes de confiance aux yeux des moteurs ; 2 calculs du TrustRank basés sur des listes différentes aboutiront forcément à des valeurs différentes de TrustRank...

Sans surprise, les sites qui obtiennent les meilleurs scores de BrowseRank sont des sites populaires du web 2.0, sans doute à cause du temps que les internautes passent dessus (au top : MySpace, YouTube, FaceBook).

Le BrowseRank est-il déjà exploité ?

MSN/Live utilise-t-il déjà le BrowseRank ? C'est sans doute encore un peu tôt, d'autant plus que des améliorations doivent encore être apportées :

  • ils doivent tenir compte du nombre de mots et du poids des fichiers annexes à la page HTML afin de normaliser les durées
  • ils doivent trouver une solution à l'absence de données de navigation sur les pages les moins populaires du web (pour lesquelles seul un algorithme conventionnel basé sur le maillage des pages est utilisable).

Rien n'est précisé non plus sur la faisabilité d'une industrialisation du calcul du BrowseRank à l'ensemble du web. Google prétend savoir calculer le PageRank (et d'autres critères sans doute) plusieurs fois par jour, pour les milliards de pages de son index.

Google et son PageRank sont-ils dépassés ?

Toujours d'après ces chercheurs, même les versions les plus évoluées du PageRank sont dépassées par leur algorithme. Ils citent deux versions qui se rapprochent du BrowseRank :

  • PageRank UBG : une sorte de PageRank pondéré calculé à partir de données de navigation des internautes
  • Naive BrowseRank : une version basique du BrowseRank, obtenue en faisant le produit du nombre de clics (sur les backlinks) par le temps moyen passé sur la page.

Cela dit, je me demande s'il ne faut pas relativiser un peu les choses... Google utilise déjà certaines des évolutions importantes décrites par les chercheurs de Microsoft :

  • les liens qui génèrent du trafic ont plus de poids que les autres (d'où la moins bonne efficacité des liens en pied de page)
  • les liens issus de pages de thématique proche ont plus de poids que les autres
  • les données de la barre d'outil de Google peuvent être utilisées, que ce soit pour des calculs de taux de rebond (''bounce rate'') ou de temps de visite de chaque page)

Que Google utilise ou pas un algorithme de type BrowseRank, que Microsoft ait déjà réussi ou non à industrialiser les tests de ses chercheurs en laboratoire, il me semble évident que les concepts exploités par le BrowseRank doivent faire partie de toute bonne optimisation du netlinking (stratégies d'amélioration du référencement par le biais des liens). En clair, cela remet (une fois de plus) l'utilisateur final au cœur du système : c'est l'internaute et non l'éditeur de site qui indique quelles pages sont les plus intéressantes du web...

A propos des auteurs

Tie-Yan LiuTie-Yan Liu semble être indiqué comme l'auteur principal de cet article (en PDF : BrowseRank: Letting Web Users Vote for Page Importance). Il est chercheur au centre de recherche de Microsoft à Pékin, il travaille actuellement dans le secteur de la recherche web.

Si cela vous intéresse, on discute du BrowseRank dans le forum...