outil de mesure de similarité de 2 pages ...

Cendrillon · 7 Décembre 2004

Il apparait assez clairement que nombre de sites dynamiques ont des problèmes de déréférencement en ce moment ... je suis persuadée que celà est en grande partie dû à la similarité des pages (entre 2 pages produits d'un catalogue, parfois très peu de choses changent) ... je pense qu'il faut donc surveiller le taux de similarité de ces pages ... :wink:

A la main c'est fastidieux, est ce que qq connaitrait un outil qui permettrait de mesurer ce taux de similarité entre 2 pages web ?

WebRankInfo · 7 Décembre 2004

ça fait partie des outils dans mes cartons... je vais essayer de les déballer avant Noël ;-)

herveG · 7 Décembre 2004

On pourrait peutetre essayer de lister les critères qui pourraient etre comparés afin de calculer un indice de similitude ? ca pourrait aider Olivier À déballer les cartons plus vite.....

A moins qu´il préfère qu´on lui envoit ces criteres par MP pour qu il puisse les consolider trasnquillement....

u8086 · 7 Décembre 2004

- Titre de la page
- Metas
- Premieres balises
- degré de similitude de la liste de mots de chaque page (pondéré par la densité de chque mot)
- phrases communes
- Liens sortants identiques

herveG · 7 Décembre 2004

bon, je commence alors. ce ne sont que des idées de ce qui pourrait etre coparé. ensuite il faut voir comment adapter un mode de calcul... alors pas de "ah ben oui, mis deux pages avec les memes Keywords sont pas forcément similaires" et compganie....

- balise description
- keywords
- nombre d´occurences de certains termes
- nombre de termes de plus d´un certain nombre de lettres en tout
- nom des fichier image et logo
- les premiers mots de la page
- les derniers mots de la pages
- titre des chapitres (H1, H2, Hn)
- Poids de la page
- nombre de liens internes
- nombre de liens vers l´extérieur
- contenu des liens internes (Anchor text)

a vous pour compléter...

(j edite pour supprimer ce qui est déja donné....)

Cendrillon · 7 Décembre 2004

WebRankInfo a dit:
ça fait partie des outils dans mes cartons... je vais essayer de les déballer avant Noël ;-)

En voila une bonne nouvelle ... :roll:

Kmacleod · 7 Décembre 2004

Cendrillon a dit:
WebRankInfo a dit:

ça fait partie des outils dans mes cartons... je vais essayer de les déballer avant Noël ;-)

Cliquez pour agrandir...

En voila une bonne nouvelle ... :roll:

Ah je verrai bien de nouveaux outils pour le 25 au matin.
J'entends déjà les rennes en train de faire reluire leur sabot, a moins que je ne confonde avec longues oreilles razor.

Sinon pour ne pas laisser ce post dans un état de fêtes (c'est pas l'heure d'abord), je ne comprends pas l'interêt de mettre autant de paramètres.
Pour moi deux pages sont similaires dés lors que les contenus texte/liens, eliminé des menus et autres liens de navigation ont x pourcentage identique.

Madrileño · 7 Décembre 2004

Kmacleod a dit:
Ah je verrai bien de nouveaux outils pour le 25 au matin.

Le père noël était en avance > annuaire WRI :lol: :arrow:

ps : c'est pour quand Olivier le Grand Déballage ? :wink:

herveG · 7 Décembre 2004

Kmacleod a dit:
Sinon pour ne pas laisser ce post dans un état de fêtes (c'est pas l'heure d'abord), je ne comprends pas l'interêt de mettre autant de paramètres.
Pour moi deux pages sont similaires dés lors que les contenus texte/liens, eliminé des menus et autres liens de navigation ont x pourcentage identique.

mais alors il faut faire comment pour calculer ce % ?

car apparemment meme les moteurs (tels altavista a qui j´avais posé la question) ne sont pas capable d´identifier des apges qui sont presque identique si elle ne le sont pas complètement.

ils m´avaient répondu à l epoque : si deux pages sont parfairement identique, alors notre moteur est capable de les repérer et d´en éliminer une. si il y a un peu de différence, alors on ne peut rien faire.

c etait du temps ou je m´enervais pour les sites duppliqués aec juste la couleur qui change et un peu la mise en page....

mahefarivony · 7 Décembre 2004

s'ils sont capables de définir le "sens" d'une page (avec toute la panoplie sémantique, bidule machin truc), ça ne devrait pas trop leur poser de probleme pour se rendre compte qu'une page (ou ensemble de pages) est générée à partir d'une BDD....

WebRankInfo · 7 Décembre 2004

L'intérêt d'un tel outil me semble de pouvoir indiquer si tel ou tel moteur considère que 2 pages sont similaires (et n'en affiche qu'une dans les résultats par exemple) et non pas d'indiquer une note de similarité made by WRI (ce qui serait plus simple pourtant).

Je pense également qu'il faut analyser le texte et les liens, mais pas forcément toutes ces balises... Je poursuis mes tests ;-)

u8086 · 7 Décembre 2004

WebRankInfo a dit:
L'intérêt d'un tel outil me semble de pouvoir indiquer si tel ou tel moteur considère que 2 pages sont similaires (et n'en affiche qu'une dans les résultats par exemple) et non pas d'indiquer une note de similarité made by WRI (ce qui serait plus simple pourtant).

Je pense également qu'il faut analyser le texte et les liens, mais pas forcément toutes ces balises... Je poursuis mes tests ;-)

Bah, dans ces conditions, ca va vraiment sentir Noêl ton histoire.

Kmacleod · 7 Décembre 2004

L'aspect moteur que soulève Olivier est autre, en tout cas different de celui que nous faisons à la mano pour surveiller le piratage de contenu (+1 cette semaine)

Cote moteur s'agirait'il de developper un outil permettant de générer une page, en étant certain, à priori, que le moteur ne la considèrera pas comme déjà existante sur le web (je pense aux marques blanches, aux conséquences de la syndication) ?

Cendrillon, Olivier, ai-je bon ?

WebRankInfo · 7 Décembre 2004

mon idée est de demander à mon outil s'il considère que 2 pages sont similaires. Cet outil donnerait un taux de similarité et au-delà d'un certain seuil il décrète les pages similaires.

Tout le problème vient du réglage de l'outil qui pourrait se calquer sur l'un ou l'autre des moteurs. Par exemple si je coche l'option Google, l'outil doit idéalement indiquer la même chose que Google. Problème : comment savoir grâce à Google que 2 pages sont jugées "trop" similaires ? Quand une seule des deux ressort sur une requête, et que pour voir l'autre il faut cliquer sur le lien qui désactive le filtre ? Vos avis m'intéressent...

Cendrillon · 7 Décembre 2004

Kmacleod a dit:
Cote moteur s'agirait'il de developper un outil permettant de générer une page, en étant certain, à priori, que le moteur ne la considèrera pas comme déjà existante sur le web (je pense aux marques blanches, aux conséquences de la syndication) ?

Cendrillon, Olivier, ai-je bon ?

c'est en tout cas c'est ce type d'outil que je recherche ... qu'il m'indique le % de similarité ...
et si en plus il peut le faire en fonction des critères de similarité des principaux moteurs (en gros Google, Yahoo et MSN) alors c'est byzance (ou noël ?) ... :wink:

Cendrillon · 7 Décembre 2004

Webrankinfo a dit:
Tout le problème vient du réglage de l'outil qui pourrait se calquer sur l'un ou l'autre des moteurs. Par exemple si je coche l'option Google, l'outil doit idéalement indiquer la même chose que Google. Problème : comment savoir grâce à Google que 2 pages sont jugées "trop" similaires ? Quand une seule des deux ressort sur une requête, et que pour voir l'autre il faut cliquer sur le lien qui désactive le filtre ? Vos avis m'intéressent...

je ne pensais pas vraiment au problème de pages similaires dans les pages de résultats ... et je ne crois pas que l'on puisse faire grang chose pour cela ... comme tout le monde le sait, les snipets étant générés dynamiquement en fonction du mot clé demandé dans la requète ... une page qui aurait 10% de similarité globale sur la page pourrait se retrouver avec 100% de similarité avec un peu de malchance si l'on se limite uniquement à mesurer sur la zone snipet (ce qui est fait me semble t'il sur les pages de résultats) ...

Non je pensais au taux de similarité globale de la page qui fait que lorsque l'on a trop de page similaire à plus n%, elles commencent alors à perdre leurs descriptions voir a être désindexées ... :wink:

Pharaon · 7 Décembre 2004

? quand j analyse mon url a ma pagerank il est marqué erreure via votre outil wri

u8086 · 8 Décembre 2004

WebRankInfo a dit:
mon idée est de demander à mon outil s'il considère que 2 pages sont similaires. Cet outil donnerait un taux de similarité et au-delà d'un certain seuil il décrète les pages similaires.

Tout le problème vient du réglage de l'outil qui pourrait se calquer sur l'un ou l'autre des moteurs. Par exemple si je coche l'option Google, l'outil doit idéalement indiquer la même chose que Google. Problème : comment savoir grâce à Google que 2 pages sont jugées "trop" similaires ? Quand une seule des deux ressort sur une requête, et que pour voir l'autre il faut cliquer sur le lien qui désactive le filtre ? Vos avis m'intéressent...

L'idée me parait géniale, mais je vois une limite à ton raisonement.

Degré de similarité oui, mais sur quels critères ?
- Sur le degré de similarité des codes sources ?
- Sur le degré de similarité du texte visible ? avec ou sans les métas ? avec une pondération alourdissant certains critères ?

Le degré de sensibilité du moteur dépend de la construction de son algorythme d'analyse de la similarité, qui est peut-être complexe...

Est-il envisageable de demander à Google comment ils analysent la similarité de 2 pages ?
Ne serait-ce pas une information bénéfique pour tout le monde ?

mahefarivony · 8 Décembre 2004

juste une petite info : on a tendance a penser que les pages sans titre ni description ne sont pas prises en compte lors des recherches.. Je vous rassure, ce n'est pas (toujours?) le cas .

exemple :
https://www.google.fr/search?q=site:www. ... rt=60&sa=N
vous verrez en 7eme ligne -http://www.madanight.com/viewarticle_46.htm sans titre ni description.. Vous vous dites : c'est fichu pour cette page..

maintenant en allant sur
https://www.google.fr/search?hl=fr&q=Le+ ... scar&meta=
oh miracle, -http://www.madanight.com/viewarticle_46.htm a retrouvé son titre et sa description.. ouf ;-)

WebRankInfo · 8 Décembre 2004

@MagicYoyo : Google ne donnera jamais une telle information. De mon côté, je propose de fournir une note de similarité textuelle + une note de similarité des liens et éventuellement une note qui cumule les deux. Ensuite on verra à quoi ça peut servir ?

aïe, ce que tu montres Mahé ne va pas nous aider à définir ce qu'on veut vraiment avec cet outil de similarité...

Cendrillon, à la rescousse !

Cendrillon · 8 Décembre 2004

mahefarivony a dit:
maintenant en allant sur
https://www.google.fr/search?hl=fr&q=Le+ ... scar&meta=
oh miracle, -http://www.madanight.com/viewarticle_46.htm a retrouvé son titre et sa description.. ouf

certes, mais il a du puiser sa description dans l'index secondaire (résultat compémentaire, date du cache : 10 avr 2004 20:57:51 GMT.) ce qui veut dire qu'il considère (si j'ai bien compris) ta page sans intérêt ... résultat elle ne sortira que sur ce type de requète (4 mots clés) avec à peine 500 réponses ...
sur cette requète par exemple "diaspora madagascar" tu ne sors déjà plus et elle ne fait "que" 67 500 réponses ...

c'est exactement ce que je cherche à éviter ...

mahefarivony · 8 Décembre 2004

je vais juste faire un petit test si cela ne vous dérange pas ;-)
diaspora madagascar

=> j'ai toujours pensé qu'il ne suffit pas d'avoir un SEUL lien pour qu'une page soit considérée comme non "orpheline".. Voyons voir si j'ai raison ;-)

WebRankInfo · 8 Décembre 2004

es-tu sûre que cela vienne d'une trop grande similarité de cette page avec d'autres du même site ?

ABeDobelU · 8 Décembre 2004

Mon site est dynamique et la requete qui sort ma Home (seule page indexée) sort un résultat du meme type (pas de titre ni de texte). j'en parle ici : https://www.webrankinfo.com/forum/t/plus-de-titre-ni-de-texte-dans-les-resultats-de-recherche.19183/

jeanluc · 8 Décembre 2004

WebRankInfo a dit:
aïe, ce que tu montres Mahé ne va pas nous aider à définir ce qu'on veut vraiment avec cet outil de similarité...

Je ne comprends pas. Je crois que ce que montre Mahé nous indique, au contraire, ce que similarité veut dire pour Google...

Le contenu de la page "article46" est bien pris en compte par Google, mais il n'est pas affiché dans la première recherche parce qu'il est trop proche de celui d'une page affichée. Comme cette page affichée ne contient pas les mots choisis dans la deuxième recherche, la page "article46" n'a plus de concurrent trop similaire et est affichée.

Yes :?:

Jean-Luc

Cendrillon · 8 Décembre 2004

WebRankInfo a dit:
es-tu sûre que cela vienne d'une trop grande similarité de cette page avec d'autres du même site ?

sûre, non ... convaincue, OUI ... évidement ce ne doit pas être la seule cause possible, mais je suis convaincue que s'en est une ... d'ailleurs nous avons eu de nombreux thread sur le sujet ...
mais je laisse les autres intervenants en témoigner éventuellement ... :wink:

WebRankInfo · 8 Décembre 2004

je pense qu'il ne faut pas se baser sur des requêtes incluant la commande site: car on n'est pas sûr que ça utilise les mêmes critères que dans une requête classique.

ce que je vois avec l'exemple de mahé c'est que sa page est effectivement bien prise en compte par Google, par contre elle est sortie en résultats complémentaire pour l'exemple donné.

je sens qu'il va falloir reprendre des exemples de "désindexations" de pages dynamiques.

squawk · 8 Décembre 2004

Je crois qu'on peut écrire un livre sur ce sujet des pages similaires/désindexées 8) en tous cas bonne chance pour essayer d'y comprendre quelquechose, moi j'y comprends plus rien.. :?

CS76 · 8 Décembre 2004

Voici un outil permettant de mesurer la similarité de deux pages :

-http://www.webconfs.com/similar-page-checker.php

Madrileño · 8 Décembre 2004

C'est normal CS76 que rien ne se charge sauf le Titre ? :lol:

Cendrillon · 9 Décembre 2004

CS76 a dit:
Voici un outil permettant de mesurer la similarité de deux pages :

-http://www.webconfs.com/similar-page-checker.php

oui, c'est pas mal, sauf que l'on ne sait pas ce qu'il mesure ... j'ai testé avec 2 pages identiques mais dans 2 langues # (Français et Anglais) ... il trouve quand même 41% de similarité !! il doit prendre en compte autre chose que le contenu pour arriver à ce résultat ... :wink:

caro · 9 Décembre 2004

l'exemple de Mahé est un vrai casse tête,
je ne m'étais jamais rendu compte de celà auparavant.
trop bizarre :?

mahefarivony · 9 Décembre 2004

bin on aura au moins appris qu'il existe un index secondaire

... dans lequel sont donc "déversées" toutes nos pages "similaires"...
mais le probleme reste entier : quel est l'algo pour déterminer qu'une page est similaire a une autre ?
amha et pour schématiser la chose, chaque page possède une "note".. si deux notes sont trop similaires, hop direction la poubelle...
cette note prend en compte bien entendu tous nos "artifices" d'optimisation (title, balises, etc.) mais on est bien d'accord que ce qui différencie réellement 2 pages, c'est bien ... leur contenu ?

Cendrillon · 10 Décembre 2004

caro -> tu avais ouvert une discution sur ce sujet me semble t'il ... à quelle conclusion étais tu arrivée ?

u8086 · 10 Décembre 2004

oui, c'est pas mal, sauf que l'on ne sait pas ce qu'il mesure ... j'ai testé avec 2 pages identiques mais dans 2 langues # (Français et Anglais) ... il trouve quand même 41% de similarité !! il doit prendre en compte autre chose que le contenu pour arriver à ce résultat ... :wink:

Je pense que justement, cette page compare les codes sources, et pas les contenus "visibles".

herveG · 10 Décembre 2004

Cendrillon a dit:
caro -> tu avais ouvert une discution sur ce sujet me semble t'il ... à quelle conclusion étais tu arrivée ?

je crois qu´il n´y avait pas vraiment eu de conclusion car tu nous avais dit que deux pages pouvaient etre considérées comme similaires par exemple par la recherche "site:ndd.com" mais qu´elles pouvaient etre considérées non similaires sur une requete déterminée. ce qui avait été vérifié d´ailleurs je crois.

Alors peutetre que google ne considere qu´un seul élément de comparaison et ce serait dépendant de la requete. un peu comme l´affichage de la description dans les resultats :

- soit la balise descritpion
- soit un morceau du contenu comportant la requete.

maintenant une idée : lorsque l on fait site:ndd.com, les resultats retournent le contenu de la balise description en description ou prafois le début de la page.

lorsque l´on fait une recherche sur un terme précis, on peut se voir proposer le contenu de la balise desc (surtout si le terme y est) ou un morceau du contenu (ou plusieurs morceaux meme).

Imaginons alors que la "similitude" se base sur la description fournie par google dans ses resultats...... on pourrait alors comprendre que :

- sur site:ndd.com toutes les pages ayant une balise description identique soient considérées comme similaire (ou alors peutetre ayant un début de page identique) car c est ce qui est retourné en resultat avec cette commande.

- sur une requete "motclé" que ces memes pages ne soient plus considérées similaires car ce mot-clé ne se trouve pas a chaque fois au meme endroit sur les pages, dans un autre contexte, de nouvelles phrases, etc. et donc google ne retourne pas la meme chose a chaque fois en description dans ces résultats...

je m´explique mal, mais je peux recommencer si personne n´a compris....

a+
Hervé

Cendrillon · 12 Décembre 2004

Noel approche à grands pas ... bientôt de nouveaux outils sur WRI ... 8)