出現集中
英語ではadaptation
タイトルのnoriegaは政治家の名前。「ケネディ」みたいなもの。
ある単語が出現する確率がpの時、2回出現する確率はp^2だと思いがち
しかし現実には一度出現した単語は高頻度で出現する
これがどの程度高頻度になるのか
意外なことにK回出現があった条件付きでのK+1回出現する確率$ Pr(k\ge2|k\ge1)は、
1回出現する確率$ Pr(k\ge1)によらない
$ Pr(k\ge1) = DF_1/D
$ Pr(k\ge2|k\ge1) = (DF_2/D)/Pr(k\ge1) = DF_2/DF_1
https://gyazo.com/b7dc9d57f2789bf54c540242d6543f29
同じ出現確率の単語を比べると、例えばKennedyはexceptより高い出現集中が見られる
https://gyazo.com/d42ac8acd36b57adc7319d3aa6f03992
ここの話を踏まえると、単語の分布だけでもそういう分布になって、キーワードだと上の方にある感じなのでは。単語の分布とキーワードの分布で比較したい。
逆に言えば、任意の文字列に対してDF2/ DFは、その出現頻度と独立な「キーワードらしさ」の指標になる