2019/05/16 Short-Text Topic Modeling via Non-negative Matrix Factorization Enriched with Local Word-Context Correlations Authors
Tian Shi (1), Kyeongpil Kang (2), Jaegul Choo (2), Chandan K. Reddy (1)
1. Virginia Tech
2. Korea University
どんなもの?
コンテキストが欠落しノイズも多い短いテキスト(ツイートとか)に対しても適用が可能なトピックモデルとしてSeaNMF (semantics-assisted NMF) を提案。
実際のShortTextでの実験で有効性を確認。
先行研究と比べてどこがすごい?
word2vec(SGNS)とNMFを組み合わせることによって、SNS等の短いテキストにおいてもより良い精度でトピックを検出できるようになった
技術や手法のキモはどこ?
短いテキストは曖昧性を持ち、ノイズも多い
通常の手法 (LDA, NMF) ではうまくトピックをキャプチャできない
SGNS (skip-gram with negative sampling) を適用したNMFを提案 → 通称: SeaNMF
https://gyazo.com/0bff6b989f956dfe8046693c0151f22d
提案手法 SeaNMF
SGNS(skip-gram with negative sampling) と NMF(Non-negative Matrix Factorization) を組み合わせた手法
https://gyazo.com/130114811bc4929fae1e6573828c3502
普通のNMF: $ \min_{M, N \geq 0}||A - WH^T||_F^2
SeaNMF: $ \min_{W, W_c, H \geq 0}||(\begin{array}{c} A^T \\ \sqrt{\alpha}S^T \end{array}) - (\begin{array}{c} H \\ \sqrt{\alpha}W_{c} \end{array})W^T||_F^2 + \psi (W, W_c, H)
$ \psi (W, W_c, H): ペナルティ項
$ S \in \mathbb{R}_+^{M \times M}: SGNSによって得られる単語ベクトルとコンテキストベクトルの掛け合わせ
SGNSの学習によって得る際は窓幅をShortTextの長さに合わせる
SGNSを組み合わせることによってなんでより良いトピックモデリングができるのか?
SGNSは特定条件下においてShifted PMI行列を分解したものであると証明されている (Levy et al. , 2014)
$ \vec{w} \cdot \vec{c} = \log (\frac{\#(w \cdot c) \cdot D}{\#(w) \cdot \#(c)}) - \log k
Term-document行列$ Aに単語同士の共起を表した$ SをくっつけてNMFすることでWord2Vecで得られる単語の関係性を組み合わせることができるようになる
論文中ではパラメータの更新に block coordinate descent (BCD) を使用
$ \psi (W, W_c, H) = ||W||_1^2とすることでSparseな行列を得ることが可能
どうやって有効だと検証した?
以下のデータセットを用いてトピックモデリング
Tag.News
Yahoo.Ans
Tweet
DBLP (特定カテゴリの論文タイトルを収集)
トピックモデリングと文書分類の2つのタスクで評価
トピックモデリングは以下の式で評価
$ C_k = \frac{2}{N \cdot (N - 1)} \sum_{1 \geq i < j \geq N}\log \frac{p(w, c)}{p(w) \cdot p(c)}
トピック$ kに含まれる$ N個の単語について考えられる組み合わせのPMIの総和で評価
文章分類はPrecision Recall F1で評価
結果
https://gyazo.com/60e12316db0cb68899b7c3a524ab3a5e
https://gyazo.com/aa0fe2d6dd6871272def5f0ca1237f40
実際に得られたトピックの例
https://gyazo.com/4b085f4c068741ae8503d0399772d6f4
https://gyazo.com/a694089ab26946f5608ff9520a58a5a3
まとめ
Word2VecをNMFに組み合わせることでより良いトピックモデルを実現
所感
Word2Vec組み合わせたら強くなれるのはある意味当然な気がする
同じくWord2Vecを組み合わせたGaussianLDAとの比較が若干気になる