トピックモデル
トピックモデル イメージ図
https://scrapbox.io/files/6344ed28f8fe9a001d2f81f6.png
トピックモデルとは、文書が複数の潜在的なトピックから確率的に生成されると仮定したモデルです。また、文書内の各単語はあるトピックが持つ確率分布に従って出現すると仮定します。 トピックモデルでは、トピックごとに単語の出現頻度分布を想定することで、トピック間の類似性やその意味を解析できます。“サッカー男子のリオデジャネイロ五輪最終予選が行なわれ、日本はサウジアラビアを2-1で下した。”という文書があったときに、LSA(潜在意味解析/Latent Semantic Analysis)では1つの文章が複数の似たトピックを持つことはできないので、この文書を「オリンピック」と「スポーツ」両方のトピックに関連付けることは難しいですが、トピックモデルではこれを可能とします。
例えば、大量のニュース記事をもとに記事のタグ付けを自動化させるケースを想定した場合、一つの記事に複数のタグを付与できるトピックモデルの方が、より多くのユーザーに興味ある記事を届けることができるでしょう。
テキストマイニングは画像認識と並んで、現在最も注目を集めているデータ分析のテーマです。トピックモデルはテキストマイニングにおいて主流になる手法の候補と言われており、今後ますます研究が進んでいくと考えられます。
ref;