Articles de R et D sur le PageRank, le SpamRank et le spam...
Par Olivier Duffez, vendredi 9 décembre 2005
Les ingénieurs poursuivent leur lutte contre le spam dans les moteurs de recherche... Voici quelques liens vers des articles traitant du sujet.
Ho John Lee résume quelques récents articles intéressants :
- Deeper Inside PageRank (PDF) : un article d'Amy N. Langville et Carl D. Meyer très complet sur le PageRank (46 pages). Attention, grosse dose de mathématiques assurée...
- Online Reputation Systems: The Cost of Attack of PageRank (PDF) : un article de Andrew Clausen qui aborde la notion de
réputation
- SpamRank - Fully Automatic Link Spam Detection - Work in progress (PDF) : un article de András A. Benczúr, Károly Csalogány, Tamás Sarlós et Máté Uher qui introduit la métrique du SpamRank, pour lutter contre le spam issu des liens (à rapprocher de cet autre article sur le link spam). Le SpamRank repose sur le calcul d'un PageRank personnalisé en analysant la distribution du PageRank local : les pages dont une grosse partie de leur PageRank a une origine douteuse se voient attribuer un fort SpamRank et sont suspectées d'être du spam.
- Detecting Duplicate and near duplicate files (PDF) : Une présentation de William Pugh alors qu'il travaillait chez Google (pendant l'été 2000), à propos des algorithmes de détection de contenus dupliqués. Il décrit une méthode qui consiste à découper les pages en petits bouts et à comparer tous les bouts de deux pages entre eux. Il précise qu'il ne sait pas du tout si Google a utilisé cette technique...

Ajoutez ce blog à vos favoris Technorati !




Commentaires
Aucun commentaire pour le moment.
Ajouter un commentaire
Les commentaires pour ce billet sont fermés.
A lire aussi dans l'actualité WebRankInfo
L'article décrit une méthode de recherche du link spam (spamdexing via les liens) basée sur le concept du spam de masse (mass spam), qui consiste à évaluer si une page est bien placée dans les résultats d'un moteur de recherche grâce au spam par liens.
Voici une petite astuce pour vous aider à faire apparaître votre blog dans les pages de Google Finance
A lire dans le forum WebRankInfo