Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Certains pensent que Google utilise cette notion dans son algorithme. Avoir des pages trop similaires pourrait entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de vérifier si cette hypothèse a du sens, en tout cas pour vos pages. C'est encore largement une version beta, donc je compte sur vos remarques (constructives) pour améliorer l'outil https://www.webrankinfo.com/outils/similarite.php
Salut, euh petit bug déjà si tu fais un nouveau calcul le bouton calculer ne semble pas du tout réagir chez moi... Sinon trés bonne idée merci.
ça fonctionne la premiere fois mais sur la page du resultat tu as remis le même formulaire en bas ==> pas l'air de fonctionner celui là edit : et ça vire les variables ton truc. blabla.php?action=article&id_article=76214&id_rubrique=11499 devient blabla.php . donc ça affiche :
Calcul de similarité textuelle entre 2 pages web Bonsoir, J'ai fait un test sans voir de bug. Par contre, j'ai comparé avec "Similar Page checker". J'en avais parlé le 20/01/05 dans ce post : Taux de similarité entre 2 pages Et sur ce site là (mais je ne connais pas l'alogorithme utilisé), j'obtiens des valeurs inférieures (avec les mêmes URL): WRI Dice : 83.72% WRI Jacard : 71.99% Similar Page checker : 59.28% De quoi perdre son latin...
je n'arrive pas à reproduire le pb de macjee quel est ton navigateur ? peux-tu m'indiquer en MP les URL que tu as testées et qui font planter ?
OK j'ai corrigé le bug indiqué par macjee j'ignore pour l'instant uniquement le http mais effectivement je pourrais ajouter www ainsi que les extensions
Ok désolé je m'étais absenté :lol: un petit bug de jeunesse sinon c trés bien et surement instructif (jai des pages à plus de 90% de similarité avec mon site qui a plongé dans google...)
J'ai une question bete... Vaut il mieux un % faible ou fort... J'imagine faible non? Ca veut dire que les pages sont (+) différentes.
Oui j'allais aussi dans ce sens. Il vaut mieux un faible %, qui signifie que les pages sont pas vraiment similaires.
oui + c'est fort + les pages sont similaires par contre il reste à "étalonner" l'outil, c'est à dire à se rendre compte des valeurs car dans certains cas on trouve 80% de similarité alors que les pages sont assez différentes. j'aimerais trouver une méthode qui se base aussi sur la position des mots dans les pages.
Je suppose que cela aussi est sans les tags HTML, je veux dire sans les surlignage, mise en gras, etc...Si tu veux tenir compte de la position des mots il faudrait peut être tenir compte aussi de leurs poids ? Enfin moi je dis ça comme ça , c'est peut être une bêtise.. Autre question est-ce que les méthodes que tu utilises éliminent les mots courant dans le texte ou c'est vraiment brut (élimination des articles, le, la, etc...)
N'oublies pas également de ne pas compter toute la syntaxe HTML, car tes % sont vraiment élevés même entre ton site et le mien ce qui ne rime à rien puisqu'ils ne sont en rien identiques ! Sinon tu peux t'amuser à faire le distinguo entre la similarité du squelette HTML et le contenu, l'indicateur serait plus fiable et donc plus intéressant
j'ai bien précisé que pour l'instant cet outil se base sur les occurrences des mots dans les pages je parle ici du texte visible, donc je commence par supprimer les balises HTML pour l'instant je n'ai pas intégré de listes de "stop words" mais c'est envisagé le pb est qu'on ignore totalement ce qui est utilisé par les moteurs :-( c'est pourquoi je souhaite développer un outil qui fasse plusieurs calculs selon plusieurs méthodes, et qu'ensuite on en discute en confrontant les résultats de l'outil avec des situations réelles de désindexation ou autres problèmes !
Bonjour Je viens d'utiliser l'outil de similitude sur un de mes annuaires. C'est un annuaire pour des villes et j'ai des pages individuelles (pour chaque page) à fort taux de similitude environ 92%. Cela n'empèche pas google de me mettre entre la 1ere et 3eme page. Le plus souvent 1ere page. Par contre il semble buter sur la quantité. Je pense qu'il a intégré que 50% de ces pages individuelles. Je ne sais pas si c'est lié ?
Bonjour, J'ai fait des tests avec "Similar Page Checker", "WRI Dice" et "WRI Jacard" (voir les URL au début du topic) avec 6 pages différentes. Page 1 - page de référence doit voici le code : Code: <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> <title>Lorem ipsum dolor consectetuer adipiscing elit</title> <meta name="description" content="Lorem ipsum dolor sit consectetuer adipiscing elit"> <meta name="keywords" content="Lorem ipsum dolor sit consectetuer adipiscing elit"> </head> <body> <h1>Lorem ipsum dolor sit consectetuer adipiscing elit</h1> Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Morbi interdum, mauris eu porta hendrerit, nunc eros vulputate purus, vel vestibulum nibh nunc eu augue. In lacus orci, adipiscing id, iaculis condimentum, iaculis sit amet, ligula. Sed a nunc eget arcu pharetra ornare. Vestibulum gravida consequat lorem. Nam lobortis magna volutpat dolor. Donec lacus nulla, molestie blandit, vehicula non, sollicitudin eu, nulla. Pellentesque commodo ligula in velit. Curabitur a mauris. Etiam luctus est sit amet leo. Morbi gravida tortor ut magna. Vestibulum vitae urna. Vivamus in metus. Donec fringilla commodo nulla. Proin mauris metus, cursus a, accumsan sit amet, lacinia in. </body> </html> Page 2 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <title> Page 3 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <meta name="description"> Page 4 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <meta name="keywords"> Page 5 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <h1> Page 6 - Idem à page 1 mais suppression du "L" de "Lorem" au début du texte Voici les résultats : [En rouge] On constate qu'il y a des cas où "WRI Dice" et "WRI Jacard" ne voient pas de différence entre les pages alors que "Similar Page Checker", oui. Voilà... A vos commentaires...
pas croyable j'ai teste les deux pages les mieux référencées de ùmon site. Voila ce que j'obtiens: Dice 92.94% 18.18% 57.89% 60.00% Jacard 86.81% 10.00% 40.74% 42.86% c'est grave doncteur? a priori, non, ces pages sont sur google depuis longtemps et occupent de tres bonnes positions sur leurs mots cles respectifs
J'ai fait un outil de densité et le premier truc qui m'est venu c'est de virer des mots trop communs. Alors je ne connais pas les méthodes que tu utilises et leur algo, peut être que ces mots communs n'ont finalement pas d'incidence.
Oui, il semblerait logique de virer les : le, la, les du, de, des, avec, l, et, etc, etc. Tous ces trucs que font que deux pages peuvent parraitre similaire pour rien... Les moteurs, lors de recherches, les ignorent bien généralement...
Mon site site principal ainsi que mes 2 autres sites sont actuellement en cours de transfert, google à crawler mon site principal juste avant de changer les dns, j'ai cliqué sur "pages similaires" dans google et y m'en affiche "des tonnes" (20/30) ... le thème etant "gagner de l'argent", quelqu'un sait sur quel pourcentage se base google pour les afficher ?
il faudrait que je vérifie mais je pense que dans les algos utilisés les mots communs aux 2 pages ne font pas augmenter le taux de similarité. On se base surtout sur le nb de mots différents. mais je vais supprimer les stop words, c'est vrai que ce serait mieux. qui a des liens vers des listes de stop words (en français et dans d'autres langues éventuellement) ?
Bonjour, Il y a ce lien : http://www.ranks.nl/tools/stopwords.html qui propose des stopwords pour plusieurs langues.
Merci pour ce lien. Le stop word français est quand même bizarre (contenant des verbes, etc...) mais pourquoi pas, façon faut faire un essai amha
pages similaires salut à vous je constate que je n'etais pas tant à coté de la plaque que ça avec ma théorie de desindexation.. a+
j'ai mis à jour l'outil en ignorant tous les mots trop courants en français ("stop words"). Merci à Jean Véronis pour son aide ! Olivier
Pour info, même constat. Sur 200 pages référencées environ, nous sommes descendus progressivement à 118 pages et cela semble se stabiliser. En terme de similitude, nous sommes également dans les 90%. Coïncidence ?
Après moulte travail sur mes pages, il semble important de maintenir un niveau inférieur à 70%. De même, il semblerait qu'une similitude au niveau des headers et des h1 jouent un rôle négatif.
Oui et cela oblige à appliquer une mise en forme ultra simple pour limiter le code. C'est également notre objectif d'approcher les 70%. J'ai un site dont toutes les pages sont référencées avec un taux moyen de 70/73% (méthode Dice) et 55/58% (méthode Jacard). J'ai donc l'impression qu'à 90% de similitude GG nettoie progressivement sa base pour ne garder que 50% des pages. Vers 70%, il les considère toutes différentes. C'est un constat perso à prendre avec des pincettes.
Bonjour à tous, Comment se fait-il que j'obtienne des taux de similarité : Méthode de calcul Page entière : Dice 39.23% / Jacard 24.40% aussi élevés entre deux pages écrites en deux langues différentes (fr, es) et dans lesquelles ne sont vraiment identiques que quelques noms propres ou de marque :?:
pages similaires a plus de 99% Bonjour, J'ai essayé d'améliorer le referencement de mes pages de news en incluant des meta description et keyword dynamiques en plus du title deja dynamique, mais le test de similarite de wri me donne plus 99% de similarite sur les pages ! Pourtant, lorsque j affiche la source des pages, les meta sont bien differentes selon les pages de news. Where is the problem ?
Moi j'ai abandonné ces histoires de similarité, meme si nous avons un peu amelioré les resultats de ce cote la. On en est reste la vu les efforts à fournir et le tres peu de resultat obtenu. Surtout que finalement, malgre un taux de similarite eleve, nos pages sont enfin referencees. Je pense que cela est dû à l'ancienneté du site car nous n'avions rien fait de plus ormi d'avoir soufflé notre premiere bougie... Probable qu'il y ait une histoire de sandbox. A voir avec ceux qui ont plus d'experience si ce fait ce confirme.
Bonsoir, oui, j'ai modifié le script pour faire des meta dynamiques aujourd'hui, je me mets au php, c est facile en fait, et j'ai fait le test sur les 2 adresses :***://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=337 et ***://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=336 qui ont un contenu different meme si la decoration reste celle du cms. Le taux de similarite dans les 2 methodes depasse le 99 % !!! Pour toutes mes news, c est pareil ! Le reste, ca va... Merci de me conseiller.
en attendant qu'Olivier te réponde ... tu peux également comparer tes résultats avec ceux de cet outil : http://www.webconfs.com/similar-page-checker.php ... :wink: [edit] je viens de faire l'essai et j'obtiens bien :
Bonjour, à votre avis, quel pourcentage de similarité ne faut-il pas dépasser pour ne pas se faire accuser de duplicate content ? Merci de vos réponses.
par expérience, il vaut mieux rester en dessous de 70% de similarité pour passer sans risque les filtres de similarité de Google ... :wink:
L'outil regarde le code html aussi ? parceque j'ai deux sites différents et c'est presque similaire partout, mais j'ai utilisé le meme code html
Je ne suis pas sure du tout de l'efficacité de cet outil et j'obtiens des resultats que je ne comprends pas : (URL supprimée par WRI, les règles interdisent toute dénonciation) pour moi, ces pages là ne sont issues d'aucun travail de la part du webmaster, les tags sont à hurler en plus. pourtant, ces 2 pages sont en premiere page de Google sur les requetes concernées ! Autre exemple, totalement different : (URL supprimée par WRI, les règles interdisent toute dénonciation) Convenez en , je dis pas ca parceque c'est mon site, le travail est bien là et pourtant l'outil m'assassine sur la similarité et ces pages (ainsi que toutes mes autres revues) sont considérée comme des pages ignorées sur la commande "site" :cry: Quelqu'un comprend t-il ce curieux phénomène ? Je ne peux pas croire que cela ne soit lié qu'à l'ancienneté du site :-(
Bon, je crois bien que tu confonds beaucoup de choses. Une similarité de pages trop élevée conduit au transfert de l'une, l'autre ou les deux pages dans l'index secondaire de Google ("Résultat complémentaire"), autant dire que ces pages ont peu de chance de sortir en bonne position. Ne pas confondre similarité de page et similarité de snippets qui se traduit par le repliement des pages concernées en "résultat similaire" lorsque tu executes la commande Site. Avec cette commande, Google ne disposant pas de mot clé, propose le contenu de la méta description comme snippet. Si ces meta ne sont pas différentiées les pages obtiennent des snippets identiques et sont alors repliées en "pages similaires". Mais dans un cas comme dans l'autre, tout cela n'a rien à voir avec le positionnement des tes pages dans résultats de recherche avec mot clé. :wink:
Bonjour. Je cherche actuellement a calculer la similarite entre plusieurs textes. Le probleme est qu'ils ne sont pas en ligne. Est - il possible d'utiliser cette outil hors ligne? Si non, ou avez vous trouve des informations sur la methode de dice et jacard car je n'en trouve aucune.
Je comprend pas la question. Je cherche seulement a utiliser ce type d'outil mais sur des textes que j'ecris moi meme par exemple et pas sur des pages internet. Merci