TF-IDF
アナロジーとしては、
自分の所属する集団で、どの項目をアピール、伸ばす、するか?
集団の外で珍しいものを、その集団の中の自分としてたくさん持つ。
お土産選びみたいなものか?(違いそうだ...) すなおに情報量を考える方が良いか。 Term Frequency と Inversed Document Frequencyをかけたもの。2つの指標の掛け算。
コーパスがある中で、ある単語のその文書の中での重要性の指標となることを目的としてる。
ある単語が、
その文書の中で頻度があれば重要度高い: term frequency
他の文書ではあまり登場しないのであれば、重要度高い: inversed documentn frequency
これを掛け合わせる。
事前確率がよくわかってない。
ある単語が、その文書で現れる事前確率が低く、その文書での条件付き確率が高いを考えてる.
ただ、連関規則だとその文書"が"出現する確率が一様、どの文書も1回出現、なので、連関規則の前提確率がないかも、、
TFIDFを作る際に、文書をカテゴリ分けしてみる、もしくはあとづけでグループ化してみて、ある程度頻度の高いカテゴリに置いて、、、、
2つの指標の掛け算の結果のイメージではある。
LSA(latent Semantics Analytics)とは?
z
をきっかけにして、いろいろ調べる。TFIDFの記事は2010年くらいがピーク? 7,8年,私は遅れてる...
以下は、まとまる前の文章
TFIDFを調べてて、感じたこと
TFの方は単なる(その文書内での)重みで、IDFの方が情報量と考えていいのか? IDFはグローバルな中での稀有さを測る量だし、TFはコレクションの中の専有度なので、それでよいのか。
コストのかかるアイテムを使えば、コレクションもユニークさを増す。
重みは和をとれば1になる。情報量は、、、同一文書内だと、個々の単語で情報量の元(単語)が違うので、フェアなメトリックスとして情報量がいい? 確率分布においては、それぞれのxにおいて、log(px(x))のがフェア??
$ TFIDF = (TermFrequency) * (InverseDocumentFrequecny) で、
ある文書でのある単語の目立ち方みたいな量を示す指標となる。
Term Frequency は、特定文書での特定単語の出現割合。
ある文書で、全体10単語で該当単語が3なら、$ 3/10
Inverse Document Freq はその単語(term)の文書全体中でどれだけ文書に出るのが稀か、出現確率の情報量 文書が20個で、そのtermが 4個の文書で存在すれば、$ -log(4/20)。
対数の底は、状況によるみたい。まずは、試験的に、来てほしい単語が感覚的に浮上できるかどうか?
TermFrequencyの方も、ゴニョる余地があるのかもと思ったけど、、ないのかな...
αが1のときはラプラススムージングといいます.