TF-IDF
Term Frecency-Invercse Document Frequency
文章
の
単語
ごとに計算される
TF
と
IDF
を掛け合わせたもの.
TF
:
文章
内での
単語
の出現割合.
IDF
:
単語
が出現する
文章
の割合の
逆数
に対してさらに
対数
を取ったもの.
文章
での
単語
の出現回数が多く,かつ他の
文章
ではあまり登場しない
単語
が大きな値となる.
その
単語
が重要であると考えることができる.