|
Voir le sujet précédent :: Voir le sujet suivant
|
| Auteur |
Message |
| |
|
Cendrillon WRInaute accro

Inscrit le: 17 Aoû 2004 Messages: 4573
|
Posté le : Mar Déc 07, 2004 14:33 Sujet du message: outil de mesure de similarité de 2 pages ... |
|
|
Il apparait assez clairement que nombre de sites dynamiques ont des problèmes de déréférencement en ce moment ... je suis persuadée que celà est en grande partie dû à la similarité des pages (entre 2 pages produits d'un catalogue, parfois très peu de choses changent) ... je pense qu'il faut donc surveiller le taux de similarité de ces pages ...
A la main c'est fastidieux, est ce que qq connaitrait un outil qui permettrait de mesurer ce taux de similarité entre 2 pages web ? |
|
| |
|
 |
WebRankInfo Administrateur du site

Inscrit le: 19 Avr 2002 Messages: 13711 Localisation: Toulouse
|
Posté le : Mar Déc 07, 2004 15:06 Sujet du message: outil de mesure de similarité de 2 pages ... |
|
|
ça fait partie des outils dans mes cartons... je vais essayer de les déballer avant Noël  |
|
| |
|
 |
herveG Modérateur

Inscrit le: 05 Mar 2003 Messages: 7257 Localisation: Allemagne
|
Posté le : Mar Déc 07, 2004 16:05 Sujet du message: outil de mesure de similarité de 2 pages ... |
|
|
On pourrait peutetre essayer de lister les critères qui pourraient etre comparés afin de calculer un indice de similitude ? ca pourrait aider Olivier À déballer les cartons plus vite.....
A moins qu´il préfère qu´on lui envoit ces criteres par MP pour qu il puisse les consolider trasnquillement.... |
|
| |
|
 |
MagicYoyo WRInaute accro

Inscrit le: 24 Mai 2004 Messages: 2171 Localisation: Montpellier
|
Posté le : Mar Déc 07, 2004 17:23 Sujet du message: outil de mesure de similarité de 2 pages ... |
|
|
- Titre de la page
- Metas
- Premieres balises
- degré de similitude de la liste de mots de chaque page (pondéré par la densité de chque mot)
- phrases communes
- Liens sortants identiques |
|
| |
|
 |
herveG Modérateur

Inscrit le: 05 Mar 2003 Messages: 7257 Localisation: Allemagne
|
Posté le : Mar Déc 07, 2004 17:25 Sujet du message: outil de mesure de similarité de 2 pages ... |
|
|
bon, je commence alors. ce ne sont que des idées de ce qui pourrait etre coparé. ensuite il faut voir comment adapter un mode de calcul... alors pas de "ah ben oui, mis deux pages avec les memes Keywords sont pas forcément similaires" et compganie....
- balise description
- keywords
- nombre d´occurences de certains termes
- nombre de termes de plus d´un certain nombre de lettres en tout
- nom des fichier image et logo
- les premiers mots de la page
- les derniers mots de la pages
- titre des chapitres (H1, H2, Hn)
- Poids de la page
- nombre de liens internes
- nombre de liens vers l´extérieur
- contenu des liens internes (Anchor text)
a vous pour compléter...
(j edite pour supprimer ce qui est déja donné....) |
|
| |
|
 |
Cendrillon WRInaute accro

Inscrit le: 17 Aoû 2004 Messages: 4573
|
Posté le : Mar Déc 07, 2004 17:39 Sujet du message: outil de mesure de similarité de 2 pages ... |
|
|
| WebRankInfo a écrit: |
ça fait partie des outils dans mes cartons... je vais essayer de les déballer avant Noël  |
En voila une bonne nouvelle ...  |
|
| |
|
 |
Kmacleod WRInaute accro

Inscrit le: 28 Nov 2002 Messages: 3417
|
Posté le : Mar Déc 07, 2004 18:01 Sujet du message: outil de mesure de similarité de 2 pages ... |
|
|
| Cendrillon a écrit: |
| WebRankInfo a écrit: |
ça fait partie des outils dans mes cartons... je vais essayer de les déballer avant Noël  |
En voila une bonne nouvelle ...  |
Ah je verrai bien de nouveaux outils pour le 25 au matin.
J'entends déjà les rennes en train de faire reluire leur sabot, a moins que je ne confonde avec longues oreilles razor.
Sinon pour ne pas laisser ce post dans un état de fêtes (c'est pas l'heure d'abord), je ne comprends pas l'interêt de mettre autant de paramètres.
Pour moi deux pages sont similaires dés lors que les contenus texte/liens, eliminé des menus et autres liens de navigation ont x pourcentage identique. |
|
| |
|
 |
Madrileño WRInaute accro

Inscrit le: 07 Juil 2004 Messages: 11963 Localisation: -------------- -- España Mi Amor ! -- -------------------------- :)
|
Posté le : Mar Déc 07, 2004 18:17 Sujet du message: outil de mesure de similarité de 2 pages ... |
|
|
| Kmacleod a écrit: |
| Ah je verrai bien de nouveaux outils pour le 25 au matin. |
Le père noël était en avance > annuaire WRI
ps : c'est pour quand Olivier le Grand Déballage ?  |
|
| |
|
 |
herveG Modérateur

Inscrit le: 05 Mar 2003 Messages: 7257 Localisation: Allemagne
|
Posté le : Mar Déc 07, 2004 18:21 Sujet du message: outil de mesure de similarité de 2 pages ... |
|
|
| Kmacleod a écrit: |
Sinon pour ne pas laisser ce post dans un état de fêtes (c'est pas l'heure d'abord), je ne comprends pas l'interêt de mettre autant de paramètres.
Pour moi deux pages sont similaires dés lors que les contenus texte/liens, eliminé des menus et autres liens de navigation ont x pourcentage identique. |
mais alors il faut faire comment pour calculer ce % ?
car apparemment meme les moteurs (tels altavista a qui j´avais posé la question) ne sont pas capable d´identifier des apges qui sont presque identique si elle ne le sont pas complètement.
ils m´avaient répondu à l epoque : si deux pages sont parfairement identique, alors notre moteur est capable de les repérer et d´en éliminer une. si il y a un peu de différence, alors on ne peut rien faire.
c etait du temps ou je m´enervais pour les sites duppliqués aec juste la couleur qui change et un peu la mise en page.... |
|
| |
|
 |
mahefarivony WRInaute accro

Inscrit le: 14 Oct 2002 Messages: 11270
|
Posté le : Mar Déc 07, 2004 18:49 Sujet du message: outil de mesure de similarité de 2 pages ... |
|
|
| s'ils sont capables de définir le "sens" d'une page (avec toute la panoplie sémantique, bidule machin truc), ça ne devrait pas trop leur poser de probleme pour se rendre compte qu'une page (ou ensemble de pages) est générée à partir d'une BDD.... |
|
| |
|
 |
WebRankInfo Administrateur du site

Inscrit le: 19 Avr 2002 Messages: 13711 Localisation: Toulouse
|
Posté le : Mar Déc 07, 2004 18:55 Sujet du message: outil de mesure de similarité de 2 pages ... |
|
|
L'intérêt d'un tel outil me semble de pouvoir indiquer si tel ou tel moteur considère que 2 pages sont similaires (et n'en affiche qu'une dans les résultats par exemple) et non pas d'indiquer une note de similarité made by WRI (ce qui serait plus simple pourtant).
Je pense également qu'il faut analyser le texte et les liens, mais pas forcément toutes ces balises... Je poursuis mes tests  |
|
| |
|
 |
MagicYoyo WRInaute accro

Inscrit le: 24 Mai 2004 Messages: 2171 Localisation: Montpellier
|
Posté le : Mar Déc 07, 2004 19:00 Sujet du message: outil de mesure de similarité de 2 pages ... |
|
|
| WebRankInfo a écrit: |
L'intérêt d'un tel outil me semble de pouvoir indiquer si tel ou tel moteur considère que 2 pages sont similaires (et n'en affiche qu'une dans les résultats par exemple) et non pas d'indiquer une note de similarité made by WRI (ce qui serait plus simple pourtant).
Je pense également qu'il faut analyser le texte et les liens, mais pas forcément toutes ces balises... Je poursuis mes tests  |
Bah, dans ces conditions, ca va vraiment sentir Noêl ton histoire. |
|
| |
|
 |
Kmacleod WRInaute accro

Inscrit le: 28 Nov 2002 Messages: 3417
|
Posté le : Mar Déc 07, 2004 19:20 Sujet du message: outil de mesure de similarité de 2 pages ... |
|
|
L'aspect moteur que soulève Olivier est autre, en tout cas different de celui que nous faisons à la mano pour surveiller le piratage de contenu (+1 cette semaine)
Cote moteur s'agirait'il de developper un outil permettant de générer une page, en étant certain, à priori, que le moteur ne la considèrera pas comme déjà existante sur le web (je pense aux marques blanches, aux conséquences de la syndication) ?
Cendrillon, Olivier, ai-je bon ? |
|
| |
|
 |
WebRankInfo Administrateur du site

Inscrit le: 19 Avr 2002 Messages: 13711 Localisation: Toulouse
|
Posté le : Mar Déc 07, 2004 20:17 Sujet du message: outil de mesure de similarité de 2 pages ... |
|
|
mon idée est de demander à mon outil s'il considère que 2 pages sont similaires. Cet outil donnerait un taux de similarité et au-delà d'un certain seuil il décrète les pages similaires.
Tout le problème vient du réglage de l'outil qui pourrait se calquer sur l'un ou l'autre des moteurs. Par exemple si je coche l'option Google, l'outil doit idéalement indiquer la même chose que Google. Problème : comment savoir grâce à Google que 2 pages sont jugées "trop" similaires ? Quand une seule des deux ressort sur une requête, et que pour voir l'autre il faut cliquer sur le lien qui désactive le filtre ? Vos avis m'intéressent... |
|
| |
|
 |
Cendrillon WRInaute accro

Inscrit le: 17 Aoû 2004 Messages: 4573
|
Posté le : Mar Déc 07, 2004 20:23 Sujet du message: outil de mesure de similarité de 2 pages ... |
|
|
| Kmacleod a écrit: |
Cote moteur s'agirait'il de developper un outil permettant de générer une page, en étant certain, à priori, que le moteur ne la considèrera pas comme déjà existante sur le web (je pense aux marques blanches, aux conséquences de la syndication) ?
Cendrillon, Olivier, ai-je bon ? |
c'est en tout cas c'est ce type d'outil que je recherche ... qu'il m'indique le % de similarité ...
et si en plus il peut le faire en fonction des critères de similarité des principaux moteurs (en gros Google, Yahoo et MSN) alors c'est byzance (ou noël ?) ...  |
|
| |
|
 |
| |
|
|