Détection de la langue d'une page web

Nouveau WRInaute
Bonjour,

Je cherche une technique rapide et efficace pour que mon crawler puisse automatiquement détecter la langue d'une page web (disons que français, anglais et néérlandais seraient déjà un bon début), à défaut de balises META.

J'imagine que je peux arriver à quelque chose en comptant des mots-clés comme "le", "la", "les"...etc mais j'aimerais votre avis et des conseils plus précis.

Merci pour ce forum toujours très intéressant,
 
WRInaute discret
Perso je vois deux approches:
1/L'attribut lang, qui peut être mis sur n'importe quel tag pour spécifier la langue de son contenu. Par exemple, les pages de ce forum ont sur leur tag <html> un attribut lang="fr", ce qui t'indique que ses pages sont en français. Disons que si tu la trouves, le nombre de chances pour qu'elle soit juste est raisonablement élevé. Attention, une page multi-lingue a plusieurs attributs lang.
2/Si tu as un contenu suffisemment grand, tu peux faire une analyse fréquentielle des lettres, caractéristique de la langue (voir http://www.techno-science.net/?onglet=g ... ition=6126 ), en ayant bien évidemment strippé tous les tags (tu peux garder les contenus des alt, longdesc et title).

Ensuite il y a d'autres indices, comme un nom de domaine national, mais le poids à y donner est assez faible...
 
WRInaute discret
fabrisss a dit:
Bonjour,

Je cherche une technique rapide et efficace pour que mon crawler puisse automatiquement détecter la langue d'une page web (disons que français, anglais et néérlandais seraient déjà un bon début), à défaut de balises META.

J'imagine que je peux arriver à quelque chose en comptant des mots-clés comme "le", "la", "les"...etc mais j'aimerais votre avis et des conseils plus précis.

Merci pour ce forum toujours très intéressant,

Peut être peux tu essayer de dénombrer la proportion des lettres ?
Par exemple, en français, les lettres les plus utilisés sont dans l'ordre : E S A N T I R U L O...

Si tu connais cet ordre pour les autres langues, tu fais un test statistique sur la page analyser et voilou
:D

Edit :

obi a dit:
Si tu as un contenu suffisemment grand, tu peux faire une analyse fréquentielle des lettres, caractéristique de la langue
Argh, je n'avais pas bien lu le message précédent. C'est de cela dont je voulais parler.
 
WRInaute occasionnel
par défaut, chaque document HTML doivent proposer l'attribut 'lang' (précédemment cité) sur la balise <html> :
Code:
<html lang="xx">
cet attribut se trouve également sur d'autres balises (cf. plus haut).
Tu as également l'attribut 'hreflang' qui permet de donner la langue de la ressource linkée.
 
Discussions similaires
Haut