TF*IDF法
Term Frequency-inverse Document Frequency
重要(レア)な単語を多数含んだ文は,重要な文である
この仮説に基づいて単語の
重要度
を計算する
単語頻度
(
Term Frequency
)と
逆文書頻度
(
Inversed Document Frequency
)の積を
重要度
として計算する
文書を横断して滅多に出ない単語(IDFが高い)が,その文によく出てくる(TFが高い)なら,その文は多分重要だろう.
#自然言語処理