Critère qualitatif proposé : la richesse lexicale

WRInaute discret
Innovation qualitative proposée (à Google et Cie) : un bonus pour la richesse lexicale !

Bonjour à tous,

Je suppose qu'il doit être possible de proposer à Google and Co des innovations pour améliorer encore leur pertinence et j'imagine que certains d'entre vous savent comment les contacter à cet effet.

C'est pourquoi je vous invite à suggérer à (au moins) Google et Yahoo d'intégrer un nouveau critère dans leurs calculs, cette fois-ci qualitatif (ce qui nous changera du tout quantitatif...) : la richesse du vocabulaire.

En effet, s'il peut paraître difficile de juger de la qualité d'un texte, surtout pour un robot, il y a tout de même cet élément objectif : sur cent mots, combien de mots différents ?

Par exemple, sur les trois paragraphes ci-dessus il y a justement... 100 mots. [Je compte pour un mot : "qu'il", "s'il" ; pour deux mots : "fois-ci".] Et sur ces 100 mots, j'en ai comptés environ 80 différents. Admettons que ce soit un pourcentage assez bon pour un très court texte. Mais bien sûr, plus le texte sera long, plus certains mots reviendront, et donc plus le pourcentage baissera (à qualité de texte égale). Ce nouveau critère, s'il était un jour adopté, devrait donc prendre la forme d'un pourcentage variable (selon la longueur du texte), une sorte de courbe qui s'aplanirait de plus en plus à mesure que le texte s'allonge – un peu comme la courbe de poids moyenne d'un bébé pendant les premières années, sauf qu'ici au lieu de poids moyen il serait question de diversité des mots – ce qui permettrait de donner un petit bonus à ceux qui s'en approchent ou un petit malus à ceux qui s'en écartent trop.

Google aurait ainsi la faculté de juger – objectivement ! – que cette phrase :

Dans le désert il fait généralement très chaud pendant la journée mais froid la nuit. Cette grande amplitude des températures met l'organisme à rude épreuve. Notre corps doit s'adapter en permanence.
[Diversité lexicale : environ 97 %]

est sans doute de meilleure qualité que celle-là :

Dans le désert il fait très chaud pendant la journée, très froid pendant la nuit, à nouveau très chaud, à nouveau très froid… Ça n'arrête pas ! On a soit trop chaud soit trop froid. Dur-dur le désert !
[Diversité lexicale : environ 58 %]

…et qu'il doit donc un peu mieux noter la première.

--------------

Pourquoi est-ce que je propose ça ? Parce qu'actuellement la richesse lexicale, hélas, pénalise... Si vous dites "voiture" puis "automobile" puis "moyen de locomotion" puis "véhicule" puis "ma Peugeot" puis "ma charrette", vous ne serez positionné nulle part ; tandis que celui qui écrit 36 fois "voiture", sous réserve de ne pas dépasser un certain plafond d'occurrences, sera beaucoup mieux positionné que vous à [voiture]. En somme, on est obligé de restreindre son vocabulaire (en fait de répéter toujours les mêmes mots) pour gagner des places, ce qui tend à beaucoup appauvrir toutes les langues du monde, à tirer le niveau vers le bas à l'échelle planétaire !

Le nouveau critère que je propose permettrait donc de contrebalancer un peu tout cela.
 
WRInaute passionné
Bonsoir,

Je suis bien d'accord, mais Google travail beaucoup sur cela, et utilise, comme beaucoup d'autres parametres, la richesse ou non des textes, mais ce n'est pas aussi facile que de le dire.
 
WRInaute impliqué
Vous pensez sérieusement pouvoir apprendre quelque chose à l'armée d'ingénieurs surdiplomé de Google travaillant sur les algorithmes?
 
WRInaute passionné
Jean-Yves Willmann a dit:
Si vous dites "voiture" puis "automobile" puis "moyen de locomotion" puis "véhicule" puis "ma Peugeot" puis "ma charrette", vous ne serez positionné nulle part ; tandis que celui qui écrit 36 fois "voiture", sous réserve de ne pas dépasser un certain plafond d'occurrences, sera beaucoup mieux positionné que vous à [voiture].

ce n'est pas vrai. en fait, ce que vous proposez est déjà en place depuis longtemps. google sait que "agence web" par exemple est la même chose que "web agency". quand vous montez sur le premier, vous montez sur le second et vice versa.

il y a des milliers d'autres exemples. on appelle ça la LSI (Latent Semantic Indexing) ;)

https://www.google.fr/search?hl=fr&q=lsi+google
 
WRInaute passionné
Effectivement, ils sont plusieurs centaines de très haut niveaux, Google sait séduire les meilleurs dans tous les domaines de travail, tous ce qui peut-être réalisé pour améliorer le système Google sera fait, ce n'est qu'une question de temps…
 
WRInaute occasionnel
La richesse lexicale d'un texte est déjà récompensée par l'augmentation des combinaisons de mot clé.
 
WRInaute discret
carole heinz a dit:
Jean-Yves Willmann a dit:
Si vous dites "voiture" puis "automobile" puis "moyen de locomotion" puis "véhicule" puis "ma Peugeot" puis "ma charrette", vous ne serez positionné nulle part ; tandis que celui qui écrit 36 fois "voiture", sous réserve de ne pas dépasser un certain plafond d'occurrences, sera beaucoup mieux positionné que vous à [voiture].

ce n'est pas vrai. en fait, ce que vous proposez est déjà en place depuis longtemps. google sait que "agence web" par exemple est la même chose que "web agency". quand vous montez sur le premier, vous montez sur le second et vice versa.

il y a des milliers d'autres exemples. on appelle ça la LSI (Latent Semantic Indexing) ;)

https://www.google.fr/search?hl=fr&q=lsi+google

Ce n'est vrai qu'en partie, pour ma part je dirai qu'il va rapprocher "voiture" et "auto" mais il ne va pas beaucoup plus loin. Mais les moteurs ne savent pas lire, juste compter.
 
WRInaute passionné
malvina14 a dit:
Ce n'est vrai qu'en partie, pour ma part je dirai qu'il va rapprocher "voiture" et "auto" mais il ne va pas beaucoup plus loin.

disons que ça devient tout de même de + en + performant et que Google ne se borne certainement pas aux synonymes:

https://www.google.fr/search?hl=fr&q=rpr

google propose sur cette requête des résultats RPR bien sûr, mais aussi UMP et propose un peu d'UDF. c'est un cas particulier, mais c'est tout de même un peu + performant que la simple synonymie voiture/auto ;)

pour rester sur l'exemple "voiture" je pense que Google a largement les moyens de comprendre que "peugeot" ou "citroën" ou "308" sont des voitures. pour exemple, voir les colonnes "also visited" et "also searched for" ici:
http://trends.google.com/websites?q=peu ... all&sort=0
 
WRInaute accro
blogger a dit:
La richesse lexicale d'un texte est déjà récompensée par l'augmentation des combinaisons de mot clé.

:wink: mieux vaut être troisième sur 10 requêtes que premier sur une très ciblée. D'abord c'est plus facile, deuxièmement, ca apporte finalement plus de visiteurs.
 
WRInaute discret
J'entends bien toutes les réponses mais je reste dubitatif...

Tout d'abord, ne confondons pas : je ne parle pas de synonymes mais de richesse lexicale.

Sur les synonymes il me semble que les robots sont encore loin d'être au point. J'ai pu tester qu'en 2007-2008 s'il y a dans une page les mots suivants : élèves - professeurs - collèges - établissement scolaire - directrice d'école - etc., les moteurs semblent incapables de comprendre que l'on parle d'éducation. Il faut donc absolument que le mot "éducation" figure assez souvent (le fameux critère des occurrences) pour être répertorié dans des combinaisons comprenant "éducation".

Ce sujet ne concerne donc pas les synonymes, critère linguistique encore peu accessible aux robots. En revanche, l'idée que je suggère est à 100% mathématique, donc a priori assez facilement accessible aux robots :

- calculer le pourcentage de mots différents dans une même page (voire dans un site tout entier...) ;
- puis appliquer à ce pourcentage un barème rectificateur en fonction de la taille du texte (ou de la somme totale des écrits du site).

Au risque de vous apparaître très naïf, êtes-vous vraiment sûr que les ingénieurs ont sérieusement pensé à cette idée très précise ?
 
Discussions similaires
Haut