文書が階層的
https://gyazo.com/b97714f6de37e6a90043ceee1feea38c
書籍の各ページを対象文書とする場合
各対象に出現するキーワードはDFが大きいのでTFIDFは小さくなる 書籍を一つの対象文書とする場合
書籍内のいくつものページに出現するキーワードはTFが大きいのでTFIDFが大きくなる
つまり対象の輪郭によって逆方向の影響を受ける
対象の輪郭によらない尺度はないか?
$ {\displaystyle {\hat {f}}_{h}(x)={\frac {1}{nh}}\sum _{i=1}^{n}K\left({\frac {x-x_{i}}{h}}\right)}
適当なウィンドウで密度推定をした場合に、本当に一様に出現するものなら一様分布になるはず
そこからの分布の距離を見れば良いのではないか
https://gyazo.com/49118c094aa54a2aeb477367a37cd005
しかも片方の分布が固定
大小関係を考えるだけならQを無視して良いので
$ \sum P(i) \log P(i)
$ -\sum P(i) \log P(i)
あるキーワードの出現位置は、そのキーワードで始まる接尾辞の出現位置を見れば分かる
そこから密度推定ができないか?
もしくは密度推定を飛ばして直接エントロピーを計算できないか?
想定しているデータサイズ
書籍1000冊分+ブログなど、1GBいかないぐらい
雑な方法
文書全体を適当なサイズのビンに割っておいて、キーワードの出現数をビンごとに数える
ビンを10000としてキーワードを最長50文字、カウントを2バイトとしても大した量ではない
この数える過程はO(N)
最後にエントロピーでソートして結果を見る