1. ‍Vérifiez vos pages zombies SEO sur votre site !!! Elles plombent votre référencement et ne vous rapportent rien... Je le détaille dans mon tuto Pages Zombies SEO
    Rejeter la notice

[Article] Link Spam Detection Based on Mass Estimation

Discussion dans 'Techniques avancées de référencement' créé par WebRankInfo, 9 Novembre 2005.

  1. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 388
    J'aime reçus:
    175
    L’article décrit une méthode de recherche du link spam (spamdexing via les liens) basée sur le concept du spam de masse (mass spam), qui consiste à évaluer si une page est bien placée dans les résultats d’un moteur de recherche grâce au spam par liens.

    Concrètement, l’algorithme cherche à localiser des « fermes de spam », des réseaux de pages créés dans l’unique but de booster le PageRank d’une page cible. Ils calculent la valeur du spam mass d’une page en calculant le pourcentage du PageRank de la page qui provient de liens de spam.

    Dans les résultats, ils trouvent beaucoup plus de spammeurs parmi les sites à fort PageRank (que parmi les sites à faible PR). Environ 25% des sites analysés ont été détectés comme spammeurs…

    Dans certains cas, l’algo ne marche pas bien, prenant de bons sites pour des spammeurs. C’est le cas de macromedia.com, qui bénéficient de beaucoup de liens.

    L’article, rédigé par 2 chercheurs de Standford (qui avaient déjà travaillé sur le TrustRank) et 2 chercheurs de Yahoo, fait 21 pages. Il est accessible ici au format PDF. Avis aux amateurs…
     
  2. marinelo
    marinelo WRInaute occasionnel
    Inscrit:
    19 Mars 2004
    Messages:
    396
    J'aime reçus:
    0
    Salut Olivier
    pourrait tu faire des articles un peu plus complet , car l'anglais ...
    faire une synthèse plus profonde de l'article en français
    merci
     
  3. tom_pascal
    tom_pascal WRInaute occasionnel
    Inscrit:
    17 Novembre 2003
    Messages:
    263
    J'aime reçus:
    0
    L'article PDF semble intéressant... pour la théorie !

    Mais il n'y a pas une implémentation de l'algorithme quelquepart qui permettrait de tester nous-mêmes des sites ?
     
  4. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 388
    J'aime reçus:
    175
    je partage l'info en publiant une actu, je fais mieux que les anglais qui n'ont que recopié le résumé puisque j'ai lu rapidement l'article et j'ai donné les grandes lignes

    Et ça ne suffit pas, il faut que je traduise les 21 pages ? Ca commence à faire bcp, je n'ai pas assez de temps ! Mais il y aura peut-être une autre bonne volonté ?
     
  5. marinelo
    marinelo WRInaute occasionnel
    Inscrit:
    19 Mars 2004
    Messages:
    396
    J'aime reçus:
    0
    je trouve simplement que tu devrais nous dire les techniques à faire ou pas faire pour ne pas tombé dans ce filtre :lol:
    car farmlink c'est vaste
     
  6. 974
    974 WRInaute discret
    Inscrit:
    31 Juillet 2004
    Messages:
    210
    J'aime reçus:
    0
    Ouaich ca serait sympa :oops: :)
     
  7. spidetra
    spidetra WRInaute passionné
    Inscrit:
    7 Juillet 2003
    Messages:
    1 276
    J'aime reçus:
    0
    Ce n'est ni une tentative de traduction fidèle de l'article, ni une analyse mathématique de l'algo. C'est juste une trasncription de ce que j'ai crû comprendre ( avec toutes les erreurs d'interprétation que j'ai pu faire )

    On retrouve dans cet article des similitudes avec une publi précédente de 2004 :
    Combating web Spam With Trust Rank.
    C'est article est d'ailleurs cité.
    TrustRank introduit le concept : "reputables nodes"
    Spam Mass Detection : introduit le concept de "good nodes"

    L'idée générale est d'utiliser deux ensembles de PR :
    - Le PR habituel, dont la formule +ou- remanié date de 1998
    - Un 2° PR, biaisé qui prendrait en compte le PR de certains sites ou pages connus comme étant de qualité. ( "good node", "reputable node")

    L'idée des spammeurs est assez simple : le PR étant relativement robuste aux tentatives de spam. Une des solutions consiste à multiplier les liens entrants de faible PR.

    Trois techniques de spam usuelles sont cités :
    - Utilisation de blog, forums, guestbook : une analyse des tentatives de splog sur le blog de veronis :
    http://aixtal.blogspot.com/2005/10/blog ... amais.html
    - La technique classique des "honey pot" : il n'y a qu'a voir le nombre de versions du manuel php disponible sur le web
    :) . On sait jamais peut-être que celle du site officiel ne suffit pas !
    - Le rachat de nom de domaine très populaire et ayant récemment expiré.

    L'idéal étant évidemment de combiner ces trois techniques :D

    On retrouve ces concepts de sites de référence dans plusieurs approche : Authoritative Page, TrustRank, etc...
    Si mes souvenirs sont bons, Il ya quelques années les chercheurs d'IBM avaient détecté sur la toile 4 à 5.000 sites qui pouvaient être considéré comme des points de départ de crawl fiable.

    Edite -- supprimmé --

    On peut imaginer que Pavel Berkhin et Jan Pedersen considére l'annuaire de Yahoo! comme étant a "good node".
    :D

    Edit :
    Il est impossible pour chaque document du web de savoir si on a affaire à un spam ou a un document de qualité.
    Les auteurs ont basé leurs études sur deux sous-ensemble :
    - un sous-ensemble de sites qui seraient connus comme étant de qualité
    - un sous-ensemble de sites qui seraient connus comme étant du spam.
    Ce sont les concepts de "white-list" et de "black-list" qui seraient maintenus par les outils de recherches.
    Pour leur étude les auteurs ce sont contenté d'utiliser une "white-list".
    Je me demande bien où ils ont pu la trouver :D

    On voit bien là l'importance d'avoir une base de connaissance fiable sur un , ou deux, sous-ensemble significatif de l'index général.
    Cette connaissance peut-être apporté par des humains ( annuaire, eval.google.com) ou alors de manière automatique par des algos.

    L'algo automatique et les humains pouvant être combiné.
     
  8. spidetra
    spidetra WRInaute passionné
    Inscrit:
    7 Juillet 2003
    Messages:
    1 276
    J'aime reçus:
    0
    Est-ce que le fait d'inscrire sont site dans un annuaire comme DMoz, dont les données libres sont reprises sur de nombreux sites, est succeptible d'entraîner un "Link Spam Detection" ?

    A la lecture de cet article il me semble que non.
    Il me semble qu'une des caractéristique essentielle des tentatives de spam est l'interconnection forte entre eux des node participant à la tentative de SpamLink.

    Dans le cas d'un annuaire tel que DMoz, on a effectivement de très nombreux liens entrants, mais l'interconnexion entre les sources est quasiment inexistante.

    C'est une interprétation très personnelle de l'article, mais cela me semble être un critère important.
     
  9. marinelo
    marinelo WRInaute occasionnel
    Inscrit:
    19 Mars 2004
    Messages:
    396
    J'aime reçus:
    0
  10. Thierry Bugs
    Thierry Bugs WRInaute accro
    Inscrit:
    16 Juin 2004
    Messages:
    3 780
    J'aime reçus:
    1
    Le probleme avec un site dit "de qualité" , c'est qu'un jour il peut devenir spammeur, ou bien etre racheté par de mauvaises mains...
    Changer l'algo c'est bien pour eux (chiant pour nous), mais je pense qu'ils auraient tout intéret à mieux gérer le spam report, et ça un humain le vérifiera toujours mieux qu'une bête machine...
     
  11. spidetra
    spidetra WRInaute passionné
    Inscrit:
    7 Juillet 2003
    Messages:
    1 276
    J'aime reçus:
    0
    Les auteurs montrent eux-mêmes les limites et les dangers de telles méthodes en signalant que : macromedia.com est considéré comme le 3° plus gros site de spam !
    Les publis sur toutes les techniques de détection de SpamLink "pulullent" en ce momment.
    On commence à voir se profiler des pistes pour essayer de garder de la pertinence au concept du PR ( qui était une bonne idée au départ ).

    - Détection et blacklistage des FarmLinks en tout genre. Madrileno donne un très bon exemple. Les FarmLinks sont fortement interconnectés.

    - Un calcul classique, ou légèrement modifié du PR. Un des enjeu est de ne pas prendre en compte les FarmLinks dans ce calcul. La présence dans une FarmLinks devrait être neutre, afin d'éviter les tentatives décrites par Madrileno. Aucune influence de la FarmLink : ni en positif, ni en négatif. Cela ne me semble possible que si les FarmLinks sont préalablement blacklistés.

    - La maintenance par les moteurs d'une liste de sites de références, par exemple l'annuaire de Yahoo!. Sur ce point Yahoo! a un vrai avantage / Google. Les auteurs parlent d'un PR biasé qui ne prendrait en compte spécifiquement ces "sites de qualités".

    L'enjeu n'est plus à la taille des index, mais à la qualification des sources. Ce qui est bc, bc plus complexe.
    A ce premier enjeu vient s'ajouter la prochaine frontière : la sémantique, qui commence à être pris en compte.
     
Chargement...
Similar Threads - [Article] Link Spam Forum Date
[article] backlinks: la mort de l' Ancre Référencement Google 30 Septembre 2008
Google victime d'abus d'incompréhension dominante [Article] Droit du web (juridique, fiscalité...) 17 Septembre 2010
[Article] Automatisez le déploiement de vos sites Administration d'un site Web 13 Août 2009
[Article] Les journaux cherchent le moyen de faire payer leur contenu Monétisation d'un site web 24 Mars 2009
[article] Exploiter les stats Google Webmaster Tools Référencement Google 16 Octobre 2008
[Article] Lighttpd et apache sur le même serveur II Administration d'un site Web 26 Juin 2008
[Article] [beta]Sauvegarder un dédié part II Administration d'un site Web 13 Juin 2008
[Article] Configurer lighttpd (lighty) avec php5 Administration d'un site Web 16 Janvier 2008
[Article] Exemple de script de sauvegarde pour un dédié Administration d'un site Web 13 Janvier 2008
Site marchand : backlink vers la catégorie ou le site ? Débuter en référencement Vendredi à 12:43
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice