Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

L’algorithme du BrowseRank expliqué

Des chercheurs de Microsoft ont indiqué avoir mis au point un algorithme intitulé BrowseRank, permettant de mesurer l’importance d’une page sur le web. Contrairement au célèbre PageRank de Google qui, dans sa version initiale, ne se base que sur la présence de liens entre les pages, le BrowseRank tient compte aussi du trafic généré par ces liens ainsi que du temps passé par les internautes sur les pages.

Les avancées techniques du BrowseRank

Pour développer leur algorithme, les chercheurs de Microsoft Research Asia (Bin Gao, Tie-Yan Liu et Hang Li) sont partis de la faiblesse des modèles de calcul de popularité basés uniquement sur le graphe des liens entres les milliards de pages que constituent le web. Ils expliquent que ces modèles (dont le plus célèbre représentant est certainement le PageRank) ne représentent pas assez bien la réalité, puisqu’ils ignorent le comportement des internautes. Le Browse Rank est donc un indice d’importance d’une page calculé à la fois à partir du maillage de liens mais aussi des clics sur ces liens, et du temps passé sur les pages d’arrivée :

  • plus il y a d’internautes qui sont arrivés sur une page en ayant cliqué sur un lien, plus cette page est importante
  • plus ces internautes sont restés longtemps sur cette page, plus elle est importante.

Outre ces 2 innovations algorithmiques, les chercheurs disent que leur modélisation représente mieux la nature du web (que celle utilisée pour le calcul du PageRank).

BrowseRank

Illustration du BrowseRank (image tirée de l’article publié par les chercheurs)

Comment Microsoft récolte les données nécessaires au BrowseRank

D’un point de vue pratique, l’algorithme du BrowseRank nécessite l’accès à des données issues du surf des internautes. C’est chose possible avec les barres d’outils que proposent la plupart des grands moteurs de recherche (MSN/Live dans le cas présent mais aussi Google ou Yahoo). Les utilisateurs de ces barres d’outils ont sans doute oublié qu’ils ont accepté de transmettre aux moteurs des informations sur les pages qu’ils visitent, mais ils sont pourtant des millions à fournir ainsi en permanence ces données.

Bien entendu, pour des raisons de confidentialité, les données personnelles ne sont pas exploitées par le BrowseRank ; d’ailleurs elles ne sont pas vraiment nécessaires.

Performances du BrowseRank

D’après les chercheurs, leur algorithme est plus performant que le PageRank et le TrustRank, aussi bien pour aider un moteur de recherche à classer les pages par pertinence que pour identifier le spam. Ils ont effectué des tests sur un échantillon de 10.000 sites web, que des utilisateurs ont analysé pour indiquer s’ils les considéraient comme du spam ou pas. Au passage, si quelqu’un peut m’expliquer comment ces chercheurs peuvent calculer le TrustRank, je suis preneur ! Cet algorithme utilise en effet une sélection manuelle de sites jugés comme étant absolument dignes de confiance aux yeux des moteurs ; 2 calculs du TrustRank basés sur des listes différentes aboutiront forcément à des valeurs différentes de TrustRank…

Sans surprise, les sites qui obtiennent les meilleurs scores de BrowseRank sont des sites populaires du web 2.0, sans doute à cause du temps que les internautes passent dessus (au top : MySpace, YouTube, FaceBook).

Le BrowseRank est-il déjà exploité ?

MSN/Live utilise-t-il déjà le BrowseRank ? C’est sans doute encore un peu tôt, d’autant plus que des améliorations doivent encore être apportées :

  • ils doivent tenir compte du nombre de mots et du poids des fichiers annexes à la page HTML afin de normaliser les durées
  • ils doivent trouver une solution à l’absence de données de navigation sur les pages les moins populaires du web (pour lesquelles seul un algorithme conventionnel basé sur le maillage des pages est utilisable).

Rien n’est précisé non plus sur la faisabilité d’une industrialisation du calcul du BrowseRank à l’ensemble du web. Google prétend savoir calculer le PageRank (et d’autres critères sans doute) plusieurs fois par jour, pour les milliards de pages de son index.

Google et son PageRank sont-ils dépassés ?

Toujours d’après ces chercheurs, même les versions les plus évoluées du PageRank sont dépassées par leur algorithme. Ils citent deux versions qui se rapprochent du BrowseRank :

  • PageRank UBG : une sorte de PageRank pondéré calculé à partir de données de navigation des internautes
  • Naive BrowseRank : une version basique du BrowseRank, obtenue en faisant le produit du nombre de clics (sur les backlinks) par le temps moyen passé sur la page.

Cela dit, je me demande s’il ne faut pas relativiser un peu les choses… Google utilise déjà certaines des évolutions importantes décrites par les chercheurs de Microsoft :

  • les liens qui génèrent du trafic ont plus de poids que les autres (d’où la moins bonne efficacité des liens en pied de page)
  • les liens issus de pages de thématique proche ont plus de poids que les autres
  • les données de la barre d’outil de Google peuvent être utilisées, que ce soit pour des calculs de taux de rebond ( »bounce rate ») ou de temps de visite de chaque page)

Que Google utilise ou pas un algorithme de type BrowseRank, que Microsoft ait déjà réussi ou non à industrialiser les tests de ses chercheurs en laboratoire, il me semble évident que les concepts exploités par le BrowseRank doivent faire partie de toute bonne optimisation du netlinking (stratégies d’amélioration du référencement par le biais des liens). En clair, cela remet (une fois de plus) l’utilisateur final au cœur du système : c’est l’internaute et non l’éditeur de site qui indique quelles pages sont les plus intéressantes du web…

A propos des auteurs

Tie-Yan LiuTie-Yan Liu semble être indiqué comme l’auteur principal de cet article (le PDF ne semble plus disponible, j’ai enlevé le lien : BrowseRank: Letting Web Users Vote for Page Importance). Il est chercheur au centre de recherche de Microsoft à Pékin, il travaille actuellement dans le secteur de la recherche web.

Si cela vous intéresse, on discute du BrowseRank dans le forum…

Cet article vous a-t-il plu ?

Cliquez pour voter !

7 commentaires

Kmenslow

Si je comprends bien le principe de l’algorithme du BrowseRank, les forums vont voir leur audience grimper en flèche sur live ?

giltonic

Je choix du BrowseRank est interessant mais de là à penser qu’il vont découper Google …. je pense pas !
La force de Google c’est de mixer les différents outils PR, TR, etc… et de donner plus ou moins de poids selon les situations.
Faire confiance uniquement à un seul algo (ici le BrowseRank) n’est pas la solution miracle… mais c’est une bonne avancée pour comprendre comment tout cela fonctionne. Maintenant je pense aussi que les utilisateurs "lamba" seront plus vigilants pour conserver leur anonymat.

passion

Article très intéressant sur la recherche afin d’améliorer la pertinence sur le web. Cependant pour ma part, que ce soit Microsoft, Google ou autre… il ne pourra jamais être représentatif réellement d’un web efficace.
Car ces informations sont utilisables qu’à la raison "sine quo none" de posséder leur barre de navigation.
Donc les résultats seront toujours aléatoires.

gif

Bon a savoir. Ce n’est pas plus mal d’obtenir du nouveau. En ce qui concerne le comptage du nombre des visiteurs sur la page x ou y, un gros site va voir son audience en augmentation. les petits voir très petit, non, ce n’est pas avec 10 cliques que le visiteur va sortir en première position des résultats. Je ne pense pas que c’est une bonne idée, car les petits créateurs ne vont plus avoir l’envies de créer. Il est mieux de juger le contenu que les cliques sur un lien. Enfin c’est ce que je pense. Et vous?.

HawkEye

@passion: peut-être pas "aléatoires", mais en tout cas "grossiers", comme tout système qui se base sur des statistiques pour dégager des tendances et "généraliser". Vu que la plupart des systèmes que nous utilisons dans la vie courante fonctionnent sur ce type de modèle… je pense qu’on peut difficilement leur jeter le pavé ;)

achtungbaby

On peut imaginer que le nombre de clicks pourrait être biaisé par l’utilisation d’un bot avec un proxy pour augmenter artificiellement le nombre de visiteurs par liens externes. Evidemment, ça serait partiellement pondéré par la durée de visite sir la page en question, mais la encore on pourrait imaginer un script qui reste sur une page un temps aléatoire.

Si Microsoft voullait peaufiner son algorythme, il faudrait alors filtrer les ips en ne conservant que celles en provenance des fournisseurs d’accès, histoire de bannir les proxy et bots de leurs calculs.

barbotin

Cuil utilise il un système d’indexation similaire ?
Je sais que le nouveau moteur de recherche se base surtout sur le contenu du site, mais n’induit il pas certain des facteurs évoqués dans le BrowseRank de Microsoft ?

Les commentaires sont fermés