TF-IDF
from Pythonで学ぶテキストマイニング入門
TF-IDF
ある文書における、それぞれの形態素の重要度を示す
特定の文書でしか出現せず、かつ高頻度で用いられる場合に大きくなる
TF: Term Frequency / 局所的重み
scikit-learnライブラリでの定義
$ tf_{i, j} = \frac {w_{i,j}} {\sum {w_j}}
$ w_{i,j}: 文書 j の形態素 i の出現回数
$ \sum w_j: 文書 j の全ての形態素の出現回数の総和
IDF: Inverse Document Frequency
scikit-learnライブラリでの定義
$ idf_i = \log \big( \frac {\mathrm D + 1} {d_i + 1} \big)+1
$ \mathrm D: 文書の総数
$ d_i: 全ての文書のうち形態素 i が一度でも出現した文書の数
複数の文書にわたって使われている形態素はIDFが小さくなる
一部のテキストでしか使われていないとIDFは大きくなる