Ho John Lee résume quelques récents articles intéressants :

  • Deeper Inside PageRank (PDF) : un article d'Amy N. Langville et Carl D. Meyer très complet sur le PageRank (46 pages). Attention, grosse dose de mathématiques assurée...
  • Online Reputation Systems: The Cost of Attack of PageRank (PDF) : un article de Andrew Clausen qui aborde la notion de réputation
  • SpamRank - Fully Automatic Link Spam Detection - Work in progress (PDF) : un article de András A. Benczúr, Károly Csalogány, Tamás Sarlós et Máté Uher qui introduit la métrique du SpamRank, pour lutter contre le spam issu des liens (à rapprocher de cet autre article sur le link spam). Le SpamRank repose sur le calcul d'un PageRank personnalisé en analysant la distribution du PageRank local : les pages dont une grosse partie de leur PageRank a une origine douteuse se voient attribuer un fort SpamRank et sont suspectées d'être du spam.
  • Detecting Duplicate and near duplicate files (PDF) : Une présentation de William Pugh alors qu'il travaillait chez Google (pendant l'été 2000), à propos des algorithmes de détection de contenus dupliqués. Il décrit une méthode qui consiste à découper les pages en petits bouts et à comparer tous les bouts de deux pages entre eux. Il précise qu'il ne sait pas du tout si Google a utilisé cette technique...