L’article décrit une méthode de recherche du link spam (spamdexing via les liens) basée sur le concept du spam de masse (mass spam), qui consiste à évaluer si une page est bien placée dans les résultats d’un moteur de recherche grâce au spam par liens.
Concrètement, l’algorithme cherche à localiser des « fermes de spam », des réseaux de pages créés dans l’unique but de booster le PageRank d’une page cible. Ils calculent la valeur du spam mass d’une page en calculant le pourcentage du PageRank de la page qui provient de liens de spam.
Dans les résultats, ils trouvent beaucoup plus de spammeurs parmi les sites à fort PageRank (que parmi les sites à faible PR). Environ 25% des sites analysés ont été détectés comme spammeurs…
Dans certains cas, l’algo ne marche pas bien, prenant de bons sites pour des spammeurs. C’est le cas de macromedia.com, qui bénéficient de beaucoup de liens.
L’article, rédigé par 2 chercheurs de Standford (qui avaient déjà travaillé sur le TrustRank) et 2 chercheurs de Yahoo, fait 21 pages. Il est accessible ici au format PDF. Avis aux amateurs…
Concrètement, l’algorithme cherche à localiser des « fermes de spam », des réseaux de pages créés dans l’unique but de booster le PageRank d’une page cible. Ils calculent la valeur du spam mass d’une page en calculant le pourcentage du PageRank de la page qui provient de liens de spam.
Dans les résultats, ils trouvent beaucoup plus de spammeurs parmi les sites à fort PageRank (que parmi les sites à faible PR). Environ 25% des sites analysés ont été détectés comme spammeurs…
Dans certains cas, l’algo ne marche pas bien, prenant de bons sites pour des spammeurs. C’est le cas de macromedia.com, qui bénéficient de beaucoup de liens.
L’article, rédigé par 2 chercheurs de Standford (qui avaient déjà travaillé sur le TrustRank) et 2 chercheurs de Yahoo, fait 21 pages. Il est accessible ici au format PDF. Avis aux amateurs…