[Outil] Calcul de similarité textuelle entre 2 pages web

Discussion dans 'Le site WebRankInfo' créé par WebRankInfo, 21 Février 2005.

  1. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 329
    J'aime reçus:
    575
    Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages).

    Certains pensent que Google utilise cette notion dans son algorithme. Avoir des pages trop similaires pourrait entraîner des problèmes d'indexation...

    Cet outil vous permettra peut-être de vérifier si cette hypothèse a du sens, en tout cas pour vos pages.

    C'est encore largement une version beta, donc je compte sur vos remarques (constructives) pour améliorer l'outil :)

    https://www.webrankinfo.com/outils/similarite.php
     
  2. macjee
    macjee WRInaute occasionnel
    Inscrit:
    29 Avril 2003
    Messages:
    311
    J'aime reçus:
    0
    Salut, euh petit bug déjà si tu fais un nouveau calcul le bouton calculer ne semble pas du tout réagir chez moi...

    Sinon trés bonne idée merci.
     
  3. TOMHTML
    TOMHTML WRInaute accro
    Inscrit:
    25 Août 2004
    Messages:
    2 524
    J'aime reçus:
    0
    ça fonctionne la premiere fois
    mais sur la page du resultat tu as remis le même formulaire en bas ==> pas l'air de fonctionner celui là


    edit : et ça vire les variables ton truc. blabla.php?action=article&id_article=76214&id_rubrique=11499 devient blabla.php .
    donc ça affiche :
     
  4. gatcweb
    gatcweb WRInaute occasionnel
    Inscrit:
    5 Mai 2004
    Messages:
    274
    J'aime reçus:
    0
    Calcul de similarité textuelle entre 2 pages web

    Bonsoir,
    J'ai fait un test sans voir de bug.
    Par contre, j'ai comparé avec "Similar Page checker". J'en avais parlé le 20/01/05 dans ce post :
    Taux de similarité entre 2 pages

    Et sur ce site là (mais je ne connais pas l'alogorithme utilisé), j'obtiens des valeurs inférieures (avec les mêmes URL):

    WRI Dice : 83.72%
    WRI Jacard : 71.99%
    Similar Page checker : 59.28%

    De quoi perdre son latin...
     
  5. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 329
    J'aime reçus:
    575
    je n'arrive pas à reproduire le pb de macjee
    quel est ton navigateur ? peux-tu m'indiquer en MP les URL que tu as testées et qui font planter ?
     
  6. gatcweb
    gatcweb WRInaute occasionnel
    Inscrit:
    5 Mai 2004
    Messages:
    274
    J'aime reçus:
    0
    Moi aussi, sous WinIE 6.0 sp1 mais pas sous Firefox 1.0.
    Voilà....
     
  7. rituel
    rituel WRInaute impliqué
    Inscrit:
    15 Mars 2003
    Messages:
    900
    J'aime reçus:
    0
    Pour la similarité dans l'url tu devrais ignorer les HTTP, les WWW et les extension.
     
  8. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 329
    J'aime reçus:
    575
    OK j'ai corrigé le bug indiqué par macjee

    j'ignore pour l'instant uniquement le http mais effectivement je pourrais ajouter www ainsi que les extensions
     
  9. macjee
    macjee WRInaute occasionnel
    Inscrit:
    29 Avril 2003
    Messages:
    311
    J'aime reçus:
    0
    Ok désolé je m'étais absenté :lol: un petit bug de jeunesse sinon c trés bien et surement instructif (jai des pages à plus de 90% de similarité avec mon site qui a plongé dans google...)
     
  10. JeunZ
    JeunZ WRInaute accro
    Inscrit:
    18 Février 2004
    Messages:
    3 971
    J'aime reçus:
    0
    J'ai une question bete... Vaut il mieux un % faible ou fort... J'imagine faible non? Ca veut dire que les pages sont (+) différentes.
     
  11. macjee
    macjee WRInaute occasionnel
    Inscrit:
    29 Avril 2003
    Messages:
    311
    J'aime reçus:
    0
    Beh moi j'ai compris que plus c'est fort plus c'est similaire puisque c'est un test de similarité.
     
  12. JeunZ
    JeunZ WRInaute accro
    Inscrit:
    18 Février 2004
    Messages:
    3 971
    J'aime reçus:
    0
    Oui j'allais aussi dans ce sens. Il vaut mieux un faible %, qui signifie que les pages sont pas vraiment similaires.
     
  13. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 329
    J'aime reçus:
    575
    oui + c'est fort + les pages sont similaires
    par contre il reste à "étalonner" l'outil, c'est à dire à se rendre compte des valeurs car dans certains cas on trouve 80% de similarité alors que les pages sont assez différentes.

    j'aimerais trouver une méthode qui se base aussi sur la position des mots dans les pages.
     
  14. macjee
    macjee WRInaute occasionnel
    Inscrit:
    29 Avril 2003
    Messages:
    311
    J'aime reçus:
    0
    Je suppose que cela aussi est sans les tags HTML, je veux dire sans les surlignage, mise en gras, etc...Si tu veux tenir compte de la position des mots il faudrait peut être tenir compte aussi de leurs poids ?

    Enfin moi je dis ça comme ça , c'est peut être une bêtise..

    Autre question est-ce que les méthodes que tu utilises éliminent les mots courant dans le texte ou c'est vraiment brut (élimination des articles, le, la, etc...)
     
  15. rituel
    rituel WRInaute impliqué
    Inscrit:
    15 Mars 2003
    Messages:
    900
    J'aime reçus:
    0
    N'oublies pas également de ne pas compter toute la syntaxe HTML, car tes % sont vraiment élevés même entre ton site et le mien ce qui ne rime à rien puisqu'ils ne sont en rien identiques !

    Sinon tu peux t'amuser à faire le distinguo entre la similarité du squelette HTML et le contenu, l'indicateur serait plus fiable et donc plus intéressant :)
     
  16. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 329
    J'aime reçus:
    575
    j'ai bien précisé que pour l'instant cet outil se base sur les occurrences des mots dans les pages
    je parle ici du texte visible, donc je commence par supprimer les balises HTML
    pour l'instant je n'ai pas intégré de listes de "stop words" mais c'est envisagé

    le pb est qu'on ignore totalement ce qui est utilisé par les moteurs :-(
    c'est pourquoi je souhaite développer un outil qui fasse plusieurs calculs selon plusieurs méthodes, et qu'ensuite on en discute en confrontant les résultats de l'outil avec des situations réelles de désindexation ou autres problèmes !
     
  17. Jeff-44
    Jeff-44 WRInaute impliqué
    Inscrit:
    3 Septembre 2004
    Messages:
    515
    J'aime reçus:
    0
    Bonjour
    Je viens d'utiliser l'outil de similitude sur un de mes annuaires. C'est un annuaire pour des villes et j'ai des pages individuelles (pour chaque page) à fort taux de similitude environ 92%.
    Cela n'empèche pas google de me mettre entre la 1ere et 3eme page. Le plus souvent 1ere page.
    Par contre il semble buter sur la quantité. Je pense qu'il a intégré que 50% de ces pages individuelles.
    Je ne sais pas si c'est lié ?
     
  18. gatcweb
    gatcweb WRInaute occasionnel
    Inscrit:
    5 Mai 2004
    Messages:
    274
    J'aime reçus:
    0
    Bonjour,

    J'ai fait des tests avec "Similar Page Checker", "WRI Dice" et "WRI Jacard" (voir les URL au début du topic) avec 6 pages différentes.

    Page 1 - page de référence doit voici le code :
    Code:
    <html>
    <head>
    <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
    <title>Lorem ipsum dolor consectetuer adipiscing elit</title>
    <meta name="description" content="Lorem ipsum dolor sit consectetuer adipiscing elit">
    <meta name="keywords" content="Lorem ipsum dolor sit consectetuer adipiscing elit">
    </head>
    <body>
    <h1>Lorem ipsum dolor sit consectetuer adipiscing elit</h1>
    Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Morbi interdum, mauris eu porta hendrerit, nunc eros vulputate purus, vel vestibulum nibh nunc eu augue. In lacus orci, adipiscing id, iaculis condimentum, iaculis sit amet, ligula. Sed a nunc eget arcu pharetra ornare. Vestibulum gravida consequat lorem. Nam lobortis magna volutpat dolor. Donec lacus nulla, molestie blandit, vehicula non, sollicitudin eu, nulla. Pellentesque commodo ligula in velit. Curabitur a mauris. Etiam luctus est sit amet leo. Morbi gravida tortor ut magna. Vestibulum vitae urna. Vivamus in metus. Donec fringilla commodo nulla. Proin mauris metus, cursus a, accumsan sit amet, lacinia in.
    </body>
    </html>
    Page 2 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <title>
    Page 3 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <meta name="description">
    Page 4 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <meta name="keywords">
    Page 5 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <h1>
    Page 6 - Idem à page 1 mais suppression du "L" de "Lorem" au début du texte

    Voici les résultats :
    [​IMG]
    [En rouge] On constate qu'il y a des cas où "WRI Dice" et "WRI Jacard" ne voient pas de différence entre les pages alors que "Similar Page Checker", oui.

    Voilà... A vos commentaires...
     
  19. yannouk
    yannouk WRInaute passionné
    Inscrit:
    11 Octobre 2003
    Messages:
    1 568
    J'aime reçus:
    0
    pas croyable j'ai teste les deux pages les mieux référencées de ùmon site. Voila ce que j'obtiens:

    Dice 92.94% 18.18% 57.89% 60.00%
    Jacard 86.81% 10.00% 40.74% 42.86%

    c'est grave doncteur?
    a priori, non, ces pages sont sur google depuis longtemps et occupent de tres bonnes positions sur leurs mots cles respectifs
     
  20. macjee
    macjee WRInaute occasionnel
    Inscrit:
    29 Avril 2003
    Messages:
    311
    J'aime reçus:
    0
    J'ai fait un outil de densité et le premier truc qui m'est venu c'est de virer des mots trop communs. Alors je ne connais pas les méthodes que tu utilises et leur algo, peut être que ces mots communs n'ont finalement pas d'incidence.
     
  21. Théophraste
    Théophraste WRInaute impliqué
    Inscrit:
    22 Juillet 2004
    Messages:
    627
    J'aime reçus:
    0
    Oui, il semblerait logique de virer les : le, la, les du, de, des, avec, l, et, etc, etc.
    Tous ces trucs que font que deux pages peuvent parraitre similaire pour rien...
    Les moteurs, lors de recherches, les ignorent bien généralement...
     
  22. ericdebra
    ericdebra WRInaute discret
    Inscrit:
    25 Juin 2004
    Messages:
    60
    J'aime reçus:
    0
    Mon site site principal ainsi que mes 2 autres sites sont actuellement en cours de transfert, google à crawler mon site principal juste avant de changer les dns, j'ai cliqué sur "pages similaires" dans google et y m'en affiche "des tonnes" (20/30) ... le thème etant "gagner de l'argent", quelqu'un sait sur quel pourcentage se base google pour les afficher ?
     
  23. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 329
    J'aime reçus:
    575
    il faudrait que je vérifie mais je pense que dans les algos utilisés les mots communs aux 2 pages ne font pas augmenter le taux de similarité. On se base surtout sur le nb de mots différents.

    mais je vais supprimer les stop words, c'est vrai que ce serait mieux. qui a des liens vers des listes de stop words (en français et dans d'autres langues éventuellement) ?
     
  24. hervelaf
    hervelaf WRInaute discret
    Inscrit:
    13 Novembre 2002
    Messages:
    121
    J'aime reçus:
    0
  25. macjee
    macjee WRInaute occasionnel
    Inscrit:
    29 Avril 2003
    Messages:
    311
    J'aime reçus:
    0
    Merci pour ce lien. Le stop word français est quand même bizarre (contenant des verbes, etc...) mais pourquoi pas, façon faut faire un essai amha
     
  26. net-annoo
    net-annoo Nouveau WRInaute
    Inscrit:
    21 Janvier 2004
    Messages:
    35
    J'aime reçus:
    0
    pages similaires

    salut à vous :)
    je constate que je n'etais pas tant à coté de la plaque que ça avec ma théorie de desindexation.. :)
    a+
     
  27. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 329
    J'aime reçus:
    575
    j'ai mis à jour l'outil en ignorant tous les mots trop courants en français ("stop words"). Merci à Jean Véronis pour son aide !

    Olivier
     
  28. RG
    RG WRInaute discret
    Inscrit:
    4 Août 2003
    Messages:
    64
    J'aime reçus:
    0
    -Supprimé-
     
  29. Pholus
    Pholus Nouveau WRInaute
    Inscrit:
    21 Avril 2005
    Messages:
    20
    J'aime reçus:
    0
    Pour info, même constat. Sur 200 pages référencées environ, nous sommes descendus progressivement à 118 pages et cela semble se stabiliser. En terme de similitude, nous sommes également dans les 90%.
    Coïncidence ?
     
  30. Jeff-44
    Jeff-44 WRInaute impliqué
    Inscrit:
    3 Septembre 2004
    Messages:
    515
    J'aime reçus:
    0
    Après moulte travail sur mes pages, il semble important de maintenir un niveau inférieur à 70%. De même, il semblerait qu'une similitude au niveau des headers et des h1 jouent un rôle négatif.
     
  31. Pholus
    Pholus Nouveau WRInaute
    Inscrit:
    21 Avril 2005
    Messages:
    20
    J'aime reçus:
    0
    Oui et cela oblige à appliquer une mise en forme ultra simple pour limiter le code.
    C'est également notre objectif d'approcher les 70%. J'ai un site dont toutes les pages sont référencées avec un taux moyen de 70/73% (méthode Dice) et 55/58% (méthode Jacard).

    J'ai donc l'impression qu'à 90% de similitude GG nettoie progressivement sa base pour ne garder que 50% des pages. Vers 70%, il les considère toutes différentes.

    C'est un constat perso à prendre avec des pincettes.
     
  32. gueritee
    gueritee Nouveau WRInaute
    Inscrit:
    26 Mai 2005
    Messages:
    13
    J'aime reçus:
    0
    Bonjour à tous,

    Comment se fait-il que j'obtienne des taux de similarité :

    Méthode de calcul Page entière : Dice 39.23% / Jacard 24.40%

    aussi élevés entre deux pages écrites en deux langues différentes (fr, es) et dans lesquelles ne sont vraiment identiques que quelques noms propres ou de marque :?:
     
  33. Pholus
    Pholus Nouveau WRInaute
    Inscrit:
    21 Avril 2005
    Messages:
    20
    J'aime reçus:
    0
    Probablement à cause du code (mise en forme, menu...) qui doit être identique.

    39%, j'en reve....
     
  34. alfred99
    alfred99 WRInaute occasionnel
    Inscrit:
    7 Décembre 2004
    Messages:
    435
    J'aime reçus:
    0
    pages similaires a plus de 99%

    Bonjour,
    J'ai essayé d'améliorer le referencement de mes pages de news en incluant des meta description et keyword dynamiques en plus du title deja dynamique, mais le test de similarite de wri me donne plus 99% de similarite sur les pages ! Pourtant, lorsque j affiche la source des pages, les meta sont bien differentes selon les pages de news. Where is the problem ?
     
  35. Pholus
    Pholus Nouveau WRInaute
    Inscrit:
    21 Avril 2005
    Messages:
    20
    J'aime reçus:
    0
    Moi j'ai abandonné ces histoires de similarité, meme si nous avons un peu amelioré les resultats de ce cote la.
    On en est reste la vu les efforts à fournir et le tres peu de resultat obtenu.

    Surtout que finalement, malgre un taux de similarite eleve, nos pages sont enfin referencees. Je pense que cela est dû à l'ancienneté du site car nous n'avions rien fait de plus ormi d'avoir soufflé notre premiere bougie... Probable qu'il y ait une histoire de sandbox.

    A voir avec ceux qui ont plus d'experience si ce fait ce confirme.
     
  36. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 329
    J'aime reçus:
    575
    alfred99, as-tu un exemple à nous donner ?
     
  37. alfred99
    alfred99 WRInaute occasionnel
    Inscrit:
    7 Décembre 2004
    Messages:
    435
    J'aime reçus:
    0
    Bonsoir,
    oui, j'ai modifié le script pour faire des meta dynamiques aujourd'hui, je me mets au php, c est facile en fait, et j'ai fait le test sur les 2 adresses :***://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=337 et ***://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=336 qui ont un contenu different meme si la decoration reste celle du cms. Le taux de similarite dans les 2 methodes depasse le 99 % !!! Pour toutes mes news, c est pareil ! Le reste, ca va... Merci de me conseiller.
     
  38. alfred99
    alfred99 WRInaute occasionnel
    Inscrit:
    7 Décembre 2004
    Messages:
    435
    J'aime reçus:
    0
    help svp, je n'ai pas d'idées pour solutionner.
     
  39. Cendrillon
    Cendrillon WRInaute accro
    Inscrit:
    17 Août 2004
    Messages:
    3 650
    J'aime reçus:
    0
    en attendant qu'Olivier te réponde ... tu peux également comparer tes résultats avec ceux de cet outil : http://www.webconfs.com/similar-page-checker.php ... :wink:


    [edit] je viens de faire l'essai et j'obtiens bien :

     
  40. vinset
    vinset WRInaute discret
    Inscrit:
    20 Avril 2006
    Messages:
    183
    J'aime reçus:
    0
    Bonjour,

    à votre avis, quel pourcentage de similarité ne faut-il pas dépasser pour ne pas se faire accuser de duplicate content ?

    Merci de vos réponses.
     
  41. Cendrillon
    Cendrillon WRInaute accro
    Inscrit:
    17 Août 2004
    Messages:
    3 650
    J'aime reçus:
    0
    par expérience, il vaut mieux rester en dessous de 70% de similarité pour passer sans risque les filtres de similarité de Google ... :wink:
     
  42. XoSt
    XoSt WRInaute passionné
    Inscrit:
    6 Octobre 2003
    Messages:
    2 231
    J'aime reçus:
    0
    L'outil regarde le code html aussi ? parceque j'ai deux sites différents et c'est presque similaire partout, mais j'ai utilisé le meme code html
     
  43. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 329
    J'aime reçus:
    575
    non seulement le texte
     
  44. pitbulle
    pitbulle WRInaute discret
    Inscrit:
    8 Septembre 2004
    Messages:
    71
    J'aime reçus:
    0
    Je ne suis pas sure du tout de l'efficacité de cet outil et j'obtiens des resultats que je ne comprends pas :

    (URL supprimée par WRI, les règles interdisent toute dénonciation)

    pour moi, ces pages là ne sont issues d'aucun travail de la part du webmaster, les tags sont à hurler en plus. pourtant, ces 2 pages sont en premiere page de Google sur les requetes concernées !

    Autre exemple, totalement different :
    (URL supprimée par WRI, les règles interdisent toute dénonciation)

    Convenez en , je dis pas ca parceque c'est mon site, le travail est bien là et pourtant l'outil m'assassine sur la similarité et ces pages (ainsi que toutes mes autres revues) sont considérée comme des pages ignorées sur la commande "site" :cry:

    Quelqu'un comprend t-il ce curieux phénomène ? Je ne peux pas croire que cela ne soit lié qu'à l'ancienneté du site :-(
     
  45. Cendrillon
    Cendrillon WRInaute accro
    Inscrit:
    17 Août 2004
    Messages:
    3 650
    J'aime reçus:
    0
    Bon, je crois bien que tu confonds beaucoup de choses. Une similarité de pages trop élevée conduit au transfert de l'une, l'autre ou les deux pages dans l'index secondaire de Google ("Résultat complémentaire"), autant dire que ces pages ont peu de chance de sortir en bonne position.

    Ne pas confondre similarité de page et similarité de snippets qui se traduit par le repliement des pages concernées en "résultat similaire" lorsque tu executes la commande Site. Avec cette commande, Google ne disposant pas de mot clé, propose le contenu de la méta description comme snippet. Si ces meta ne sont pas différentiées les pages obtiennent des snippets identiques et sont alors repliées en "pages similaires".

    Mais dans un cas comme dans l'autre, tout cela n'a rien à voir avec le positionnement des tes pages dans résultats de recherche avec mot clé. :wink:
     
  46. almighty
    almighty Nouveau WRInaute
    Inscrit:
    19 Octobre 2007
    Messages:
    2
    J'aime reçus:
    0
    Bonjour. Je cherche actuellement a calculer la similarite entre plusieurs textes. Le probleme est qu'ils ne sont pas en ligne. Est - il possible d'utiliser cette outil hors ligne? Si non, ou avez vous trouve des informations sur la methode de dice et jacard car je n'en trouve aucune.
     
  47. Suede
    Suede WRInaute passionné
    Inscrit:
    4 Octobre 2002
    Messages:
    2 474
    J'aime reçus:
    0
    Tu les mets en ligne sur des pages privées ?
     
  48. almighty
    almighty Nouveau WRInaute
    Inscrit:
    19 Octobre 2007
    Messages:
    2
    J'aime reçus:
    0
    Je comprend pas la question.
    Je cherche seulement a utiliser ce type d'outil mais sur des textes que j'ecris moi meme par exemple et pas sur des pages internet.
    Merci