Vous utilisez un navigateur non à jour ou ancien. Il ne peut pas afficher ce site ou d'autres sites correctement. Vous devez le mettre à jour ou utiliser un navigateur alternatif.
merci pour la reponse
ou puis-je avoir plus de renseignements ?
en francais de preference......si tu vois mon probleme
je comprends tf mais pas df.
peux-tu m´expliquer ?
Quant à l'article, hélas, disons que cet article est sur un sujet voisin, mais ne donne pas d'infos détaillées sur tf*idf...
tf*idf est le nom consacré pour la mesure du poids des mots dans le modèle vectoriel de Salton...
tf (term frequency), c'est tout bêtement la mesure du nombre de fois ou un terme apparait dans un document donné...
Mais comme il existe des termes plus ou moins fréquents dans la langue, on "corrige" tf par l'inverse de la fréquence des documents (df : document fréquency). df est en fait le nombre de documents différents dans lesquels on retrouve un mot donné...
Il existe pas mal de variantes de la formule, la plus répandue est :
tf*idf = log ( N / df ) avec N = nombre de documents dans le corpus.
On prend le log car le ratio N / df peut prendre des valeurs très grandes.
Les poids sont utilisés comme des coordonnées dans l'espace vectoriel de Salton.