Google et les langues

Nouveau WRInaute
Question toute simple :
En effectuant une recherche sur les pages en langue française, je me demande comment google fait pour trier les différentes langues et ne donner que les pages en français.
 
A
Anonymous
Guest
Langues

A mon avis, lors qu'il indexe une page, il détermine la langue de la page (ce qui se fait très facilement en faisant des comptages sur les mots, et en sachant que tel ou tel mot appartient à telle ou telle langue... ou en apprenant un modèle naive bayes tout con si tu as déjà fait de l'intelligence artificielle :D )

Ensuite, quand il fait une requête sur la base de données, il utilise cette information.

Enfin, à vrai dire j'en sais rien, mais c'est comme ça que j'aurais fait :p

biz
JeanNo
 
A
Anonymous
Guest
determine le lieu de connexion

Il peut également déterminer ton lieu de connexion et te proposer du français si tu viens de France.
D'autres part, Google.fr représente plus de 50% du trafic mondial de Google. Pas étonnant que le français soit une langue utilisée dans les résultats.

David
http://www.athletissimo.com
 
Olivier Duffez (admin)
Membre du personnel
Re: determine le lieu de connexion

David a dit:
Il peut également déterminer ton lieu de connexion et te proposer du français si tu viens de France.
D'autres part, Google.fr représente plus de 50% du trafic mondial de Google. Pas étonnant que le français soit une langue utilisée dans les résultats.
Les pages données dans les résultats de Google n'ont aucun rapport avec ton lieu de connexion ! Ce qui peut être utilisé (et Google le fait) c'est d'aller récupérer la langue du navigateur pour proposer l'interface de Google adéquate. C'est comme ça qu'en France en tapant google.com on se retrouve souvent sur google.fr
D'autre part je doute fortement de tes statistiques sur le trafic de Google.fr, ou alors on ne s'est pas bien compris ?
 
Olivier Duffez (admin)
Membre du personnel
et alors ? ça n'a pas grand chose à voir avec la question initiale...
google.fr peut très bien amener 48% du trafic généré par les outils de recherche sans que les pages de résultats en question soient en français !
je réagissais surtout à la phrase
Google.fr représente plus de 50% du trafic mondial de Google
 
A
Anonymous
Guest
Langues

Je suis allé voir la page que tu as suggeré, mais il me semble que ma méthode est beaucoup plus fiable (c'est à dire analyser les mots de la page)
En effet, l'immense majorité des pages html sur le web ne respectent pas les normes html (donc tu ne trouveras ton 'fr' dans pratiquement aucune page), sans oublier que des petits malins pourraient donner une information fausse.

Est-ce parce que tu as besoin d'un système qui détecte la langue d'un document que tu poses cette question ?

biz
JeanNo
 
Discussions similaires
Haut