tf df idf quesako ?

WRInaute occasionnel
j´ai lu dans un post tf , df, idf
je ne comprends pas a quoi cela correspond
qui peut me donner une reponse ? :D
 
WRInaute discret
Salut,
C'est des termes de sémantique (Salton)
TF = term frequency in document
DF = doc frequency of term
IDF = inverse doc freq. = 1/DF
 
WRInaute occasionnel
merci pour la reponse
ou puis-je avoir plus de renseignements ?
en francais de preference......si tu vois mon probleme
je comprends tf mais pas df.
peux-tu m´expliquer ?
 
WRInaute impliqué
Moffen a dit l'essentiel.

Quant à l'article, hélas, disons que cet article est sur un sujet voisin, mais ne donne pas d'infos détaillées sur tf*idf...

tf*idf est le nom consacré pour la mesure du poids des mots dans le modèle vectoriel de Salton...

tf (term frequency), c'est tout bêtement la mesure du nombre de fois ou un terme apparait dans un document donné...

Mais comme il existe des termes plus ou moins fréquents dans la langue, on "corrige" tf par l'inverse de la fréquence des documents (df : document fréquency). df est en fait le nombre de documents différents dans lesquels on retrouve un mot donné...

Il existe pas mal de variantes de la formule, la plus répandue est :

tf*idf = log ( N / df ) avec N = nombre de documents dans le corpus.

On prend le log car le ratio N / df peut prendre des valeurs très grandes.

Les poids sont utilisés comme des coordonnées dans l'espace vectoriel de Salton.
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Haut