TF-IDF
TF (Term Frequency)とIDF (Inverse Document Frequency)の積
GPT-4.icon
ある単語の「その文書内での重要度」を示す。
$ TF-IDF(t) = TF(t) \times IDF(t)
特徴
文書内で頻繁に出る (TFが高い) かつ、他の文書ではあまり出ない (IDFが高い) 単語ほどスコアが高くなる。
文章ごとに特徴的な単語を抽出するのに適している。
例
「猫」という単語がある文書内で5回出現し(TF = 0.05)、
その単語が全体の文書の中で珍しく(IDF = 2)であれば、
TF-IDF = 0.05 × 2 = 0.1 となる。
/mrsekut-book-4908686130/025
キーワードの抽出に利用されるらしい