長さをパラメータにしたDF - 西尾泰和の外部脳

長さをパラメータにしたDF

ある単語のDFが0.1だ、って時

10本の文書に1本出現する出現確率だと言ってるようなものなのだけど

出現する確率pって当然文書が長くなるほど高くなるわけで

pが単語wだけの関数だと思うのはおかしいと思う。

pを文書の長さnと単語wから推定するモデルを作ると良いのではないか？？