|
Voir le sujet précédent :: Voir le sujet suivant
|
| Auteur |
Message |
| |
|
WebRankInfo Administrateur du site

Inscrit le: 19 Avr 2002 Messages: 13468 Localisation: Toulouse
|
Posté le : Lun Fév 21, 2005 20:50 Sujet du message: [Outil] Calcul de similarité textuelle entre 2 pages web |
|
|
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages).
Certains pensent que Google utilise cette notion dans son algorithme. Avoir des pages trop similaires pourrait entraîner des problèmes d'indexation...
Cet outil vous permettra peut-être de vérifier si cette hypothèse a du sens, en tout cas pour vos pages.
C'est encore largement une version beta, donc je compte sur vos remarques (constructives) pour améliorer l'outil
http://www.webrankinfo.com/outils/similarite.php |
|
| |
|
 |
macjee WRInaute impliqué

Inscrit le: 29 Avr 2003 Messages: 403
|
Posté le : Lun Fév 21, 2005 21:35 Sujet du message: [Outil] Calcul de similarité textuelle entre 2 pages web |
|
|
Salut, euh petit bug déjà si tu fais un nouveau calcul le bouton calculer ne semble pas du tout réagir chez moi...
Sinon trés bonne idée merci. |
|
| |
|
 |
TOMHTML WRInaute accro

Inscrit le: 25 Aoû 2004 Messages: 2995 Localisation: http://www.vrai-nom.com
|
Posté le : Lun Fév 21, 2005 21:47 Sujet du message: [Outil] Calcul de similarité textuelle entre 2 pages web |
|
|
ça fonctionne la premiere fois
mais sur la page du resultat tu as remis le même formulaire en bas ==> pas l'air de fonctionner celui là
edit : et ça vire les variables ton truc. blabla.php?action=article&id_article=76214&id_rubrique=11499 devient blabla.php .
donc ça affiche :
| Citation: |
Résultats
Erreur : calcul de similarité des titres impossible.
Erreur : calcul de similarité des balises meta description impossible.
|
Dernière édition par TOMHTML le Lun Fév 21, 2005 21:51; édité 1 fois |
|
| |
|
 |
gatcweb WRInaute impliqué

Inscrit le: 05 Mai 2004 Messages: 277 Localisation: Toulouse
|
Posté le : Lun Fév 21, 2005 21:48 Sujet du message: Calcul de similarité textuelle entre 2 pages web |
|
|
| WebRankInfo a écrit: |
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages).
|
Bonsoir,
J'ai fait un test sans voir de bug.
Par contre, j'ai comparé avec "Similar Page checker". J'en avais parlé le 20/01/05 dans ce post :
Taux de similarité entre 2 pages
Et sur ce site là (mais je ne connais pas l'alogorithme utilisé), j'obtiens des valeurs inférieures (avec les mêmes URL):
WRI Dice : 83.72%
WRI Jacard : 71.99%
Similar Page checker : 59.28%
De quoi perdre son latin... |
|
| |
|
 |
WebRankInfo Administrateur du site

Inscrit le: 19 Avr 2002 Messages: 13468 Localisation: Toulouse
|
Posté le : Lun Fév 21, 2005 23:00 Sujet du message: [Outil] Calcul de similarité textuelle entre 2 pages web |
|
|
je n'arrive pas à reproduire le pb de macjee
quel est ton navigateur ? peux-tu m'indiquer en MP les URL que tu as testées et qui font planter ? |
|
| |
|
 |
gatcweb WRInaute impliqué

Inscrit le: 05 Mai 2004 Messages: 277 Localisation: Toulouse
|
Posté le : Lun Fév 21, 2005 23:41 Sujet du message: [Outil] Calcul de similarité textuelle entre 2 pages web |
|
|
| macjee a écrit: |
Salut, euh petit bug déjà si tu fais un nouveau calcul le bouton calculer ne semble pas du tout réagir chez moi...
|
Moi aussi, sous WinIE 6.0 sp1 mais pas sous Firefox 1.0.
Voilà.... |
|
| |
|
 |
rituel WRInaute accro

Inscrit le: 16 Mar 2003 Messages: 1175
|
Posté le : Lun Fév 21, 2005 23:45 Sujet du message: [Outil] Calcul de similarité textuelle entre 2 pages web |
|
|
| Pour la similarité dans l'url tu devrais ignorer les HTTP, les WWW et les extension. |
|
| |
|
 |
WebRankInfo Administrateur du site

Inscrit le: 19 Avr 2002 Messages: 13468 Localisation: Toulouse
|
Posté le : Lun Fév 21, 2005 23:48 Sujet du message: [Outil] Calcul de similarité textuelle entre 2 pages web |
|
|
OK j'ai corrigé le bug indiqué par macjee
| rituel a écrit: |
| Pour la similarité dans l'url tu devrais ignorer les HTTP, les WWW et les extension. |
j'ignore pour l'instant uniquement le http mais effectivement je pourrais ajouter www ainsi que les extensions |
|
| |
|
 |
macjee WRInaute impliqué

Inscrit le: 29 Avr 2003 Messages: 403
|
Posté le : Mar Fév 22, 2005 0:15 Sujet du message: [Outil] Calcul de similarité textuelle entre 2 pages web |
|
|
Ok désolé je m'étais absenté un petit bug de jeunesse sinon c trés bien et surement instructif (jai des pages à plus de 90% de similarité avec mon site qui a plongé dans google...) |
|
| |
|
 |
JeunZ WRInaute accro

Inscrit le: 18 Fév 2004 Messages: 5306
|
Posté le : Mar Fév 22, 2005 0:19 Sujet du message: [Outil] Calcul de similarité textuelle entre 2 pages web |
|
|
| J'ai une question bete... Vaut il mieux un % faible ou fort... J'imagine faible non? Ca veut dire que les pages sont (+) différentes. |
|
| |
|
 |
macjee WRInaute impliqué

Inscrit le: 29 Avr 2003 Messages: 403
|
Posté le : Mar Fév 22, 2005 0:23 Sujet du message: [Outil] Calcul de similarité textuelle entre 2 pages web |
|
|
| JeunZ a écrit: |
| J'ai une question bete... Vaut il mieux un % faible ou fort... J'imagine faible non? Ca veut dire que les pages sont (+) différentes. |
Beh moi j'ai compris que plus c'est fort plus c'est similaire puisque c'est un test de similarité. |
|
| |
|
 |
JeunZ WRInaute accro

Inscrit le: 18 Fév 2004 Messages: 5306
|
Posté le : Mar Fév 22, 2005 0:29 Sujet du message: [Outil] Calcul de similarité textuelle entre 2 pages web |
|
|
| Oui j'allais aussi dans ce sens. Il vaut mieux un faible %, qui signifie que les pages sont pas vraiment similaires. |
|
| |
|
 |
WebRankInfo Administrateur du site

Inscrit le: 19 Avr 2002 Messages: 13468 Localisation: Toulouse
|
Posté le : Mar Fév 22, 2005 0:30 Sujet du message: [Outil] Calcul de similarité textuelle entre 2 pages web |
|
|
oui + c'est fort + les pages sont similaires
par contre il reste à "étalonner" l'outil, c'est à dire à se rendre compte des valeurs car dans certains cas on trouve 80% de similarité alors que les pages sont assez différentes.
j'aimerais trouver une méthode qui se base aussi sur la position des mots dans les pages. |
|
| |
|
 |
macjee WRInaute impliqué

Inscrit le: 29 Avr 2003 Messages: 403
|
Posté le : Mar Fév 22, 2005 0:35 Sujet du message: [Outil] Calcul de similarité textuelle entre 2 pages web |
|
|
Je suppose que cela aussi est sans les tags HTML, je veux dire sans les surlignage, mise en gras, etc...Si tu veux tenir compte de la position des mots il faudrait peut être tenir compte aussi de leurs poids ?
Enfin moi je dis ça comme ça , c'est peut être une bêtise..
Autre question est-ce que les méthodes que tu utilises éliminent les mots courant dans le texte ou c'est vraiment brut (élimination des articles, le, la, etc...) |
|
| |
|
 |
rituel WRInaute accro

Inscrit le: 16 Mar 2003 Messages: 1175
|
Posté le : Mar Fév 22, 2005 0:55 Sujet du message: [Outil] Calcul de similarité textuelle entre 2 pages web |
|
|
N'oublies pas également de ne pas compter toute la syntaxe HTML, car tes % sont vraiment élevés même entre ton site et le mien ce qui ne rime à rien puisqu'ils ne sont en rien identiques !
Sinon tu peux t'amuser à faire le distinguo entre la similarité du squelette HTML et le contenu, l'indicateur serait plus fiable et donc plus intéressant  |
|
| |
|
 |
| |
|
|