Nouvelle Algorithme...

tiboel · 22 Avril 2004

Je suis entrain de réfléchir à un algorithme de recherche de page web ( donc moteur de recherche) basé sur un algorithme que j'utilise sur un site web pour calculer la ressemblance de personnes (recherche de sosies).

Cet algorithme permet de rechercher la ressemblance entre la personne A et la personne B sachant que des personnes ont votés pour la ressemblance de C avec A et de C avec B avec plusieurs itérations possibles.

Les résultats actuels ne sont pas trés pertinents car ils sont basés sur cette relation fausses:

Code:

Si A ressemble trés peu à B
Si B ressemble trés peu à C
alors A ressemble trés peu à C ( ce qui est faux évidemment)

En effet cette relation est rélective (si A ressemble trés peu à B alors B ressemble trés peu à A) mais pas transitive ( comme montré au-dessus) ce n'est pas une relation de comparaison

Je cherche une relation de comparaison réflective, transitive et ordonée ( c'est à dire en gros que l'on peut dire que entre A et B on a une relation de degré 3 , une note par exemple 3/10, qui est plus faible que 4) pour juger de la "ressemblance" de site WEB, pour comparer deux sites WEB.

La relation de distance sur un espace à une dimension orienté est une relation réflective; transitive et ordonnée, en effet si A est distant de B de +3 et B de C de +4 alors A de C de +7

Ce qui n'est pas le cas en général Marseille est à 800 km de paris, Paris 400 km de Lyon mais Marseille n'est pas à 1200 km de Lyon sinon on l'appelerait Bruxelles.

Si vous avez des idées d'une telle relation pour comparer deux sites WEB, il est possible grâce à un algorithme basé sur le vote de 1000 sites WEB entre eux (ce qui est faisable) par exemple d'établr la relation entre 1 000 0000 de sites WEB et ainsi de suite.

Réfléchissez-y et postez vos commentaires,

Vous pouvez consulter le document suivant pour de plus amples informations :
http://www.monsosie.com/arr_tree.php

yannouk · 22 Avril 2004

je vois pas en quoi comparer des sites web permet d'etablir une hierarchie entre eux en fait...meme si on arrive a trouver que A et B ont une ressemblance, qu'est ce qui dira que A doit sortir devant B?

Eservice · 22 Avril 2004

Bonjour tiboel,

ce qui fausse la transitivité c'est que le sous-ensemble de critères de ressemblance change d'une proposition à l'autre. S'il ne change pas la transitivité est respectée.

Pour répondre à yannouck, on pourrait prendre le nombre de votes externes pour ce sous-ensemble.

tiboel · 22 Avril 2004

On peut imaginer pour chaque mot clé un seul site faisant référence par exemple pour référencement ce serait webrankinfo ( ou qqn qui paierait pour être la source de ce mot-clés) aprés on établit la matrice de ressemblance de ce site et on affiche selon la ressemblance trouvé.

Sur le site monsosie.com, c le vote sur les célébrités qui est la source de la matrice de ressemblance, on vote pour la ressemblance d'un ensemble d'individu à une liste limitée de célébrités. Les sites références feraient office de célébrités.

Je ne dit pas que c LA solution mais ca pourrait être le début d'un brain storming sur la question

tiboel · 22 Avril 2004

Eservice a dit:
Bonjour tiboel,

ce qui fausse la transitivité c'est que le sous-ensemble de critères de ressemblance change d'une proposition à l'autre. S'il ne change pas la transitivité est respectée.

Pour répondre à yannouck, on pourrait prendre le nombre de votes externes pour ce sous-ensemble.

J'ai l'impression que ce que tu dis est trés vrai mais peux-tu préciser ce que tu penses ?

Eservice · 22 Avril 2004

Comme sous-ensemble on pourrait prendre un groupe de mots clés avec une présence minimale (à définir).
Le classement pourrait être fait par le nombre et la qualité de votes externes contenant ce sous-ensemble.

On est en train de réinventer les algos des moteurs ? :lol:

tiboel · 22 Avril 2004

C'est bien à ca que je pensais

On refait peut-être les algos des moteurs de recherche...

Ou on en invente un nouveau... on peut toujours y croire

MixterX · 23 Avril 2004

Si tu parles de classer par ressemblance abandonne tout de suite l'idée.
En effet un site ne parle absolument jamais d'un même thême, surtout au niveau sémantique.
Les pages d'un sites sont en général à classer individuellement.
Prenons par exemple le site de l'equipe, dans lequel tu as plusieurs types de sport, il va s'en dire que chacune des pages :
http://www.lequipe.fr/Tennis/index.html
http://www.lequipe.fr/Basket/index.html

appartiennent à un thème spécifique sinon pauvre de toi si tu les classes dans un seul thème qui serait sport.

Finalement c'est faire preuve d'un grand optimisme qu'à la qualité des moteurs que de dire qu'il s'intéresse au contenu proprement dit d'une page afin d'en évaluer un thème.

https://www.google.fr/search?num=100&hl= ... DcountryFR
Parce que sinon, le site de bmw, qui est composé d'une frame ne serait pas premier, comment une page qui définit un cadre peu être plus pertinent que les pages que le contenu du cadre en lui - même ( ou alors comment 0 mots qui s'affiche réellement dans ton navigateur peuvent être plus pertinent qu'une page qui en affiche ).

Attention, je ne veux pas dire que le site de bmw, n'est pas pertinent pour la recherche BMW, mais je pense que la page d'accueil n'est pas réllement un exemple de pertinence.

Enfin bon l'avantage c'est que ça permet d'effacer les autres sites :
https://www.google.fr/search?num=100&hl= ... DcountryFR

Tf1 qui a créé un sous nom de domaine pour chacune des parties de leur site, se retrouve avec tous ses sous nom de domaines de classer dedans. Comme çà si tu veux chercher des infos sur TF1 autres que sur le portail, il faut encore plus spécifier sa recherche.

Voilà, enfin je pense avoir réussi à prouver qu'il n'y pas trop de classification, au sein des moteurs de recherches, les plus connus.

Sinon, ils afficheraient par exemple pour football, une sélection de thème du genre :
Sports/Football
Sports/Football/Club
Commerce/habillement
...

en effet sur des recherches peu précises comme cela, je trouverai bien plus pertinent ce type d'affichage.

Mais pour réaliser cette classification, qui n'est valable que pays par pays, cela demande d'avoir une arborescence de thème ( cf yahoo), une base de vocabulaire spécifique ( ex hameçon pour le thème pêche ) et une base de vocabulaire de contexte ( ex ligne, qui pêche à la ligne ==> le thème pêche ), et un petit réseau de neurones afin de classer une à une les pages.

Voilà, je pense que finalement les algorithmes des moteurs de recherches à l'heure actuelle sont bien plus simpliste que çà.

Parce que chez moi, je comprends pas comment sur cette recherche :
https://www.google.fr/search?num=100&hl= ... DcountryFR
cette page peut être plus pertinente :

http://www.buycentral.fr/main__rf__fnz_ ... _4787.html

que celle là :
http://www.cinekritik.com/film/base.php ... nceagneaux

Sur ce je te laisse, parce que j'ai vraiement du taf, il faut vraiement que je le finnisse mon moteur !!!