長さをパラメータにしたDF
ある単語の
DF
が0.1だ、って時
10本の文書に1本出現する出現確率だと言ってるようなものなのだけど
出現する確率pって当然文書が長くなるほど高くなるわけで
pが単語wだけの関数だと思うのはおかしいと思う。
pを文書の長さnと単語wから推定するモデルを作ると良いのではないか??