SentiRec: Sentiment Diversity-aware Neural News Recommendation

#tanabe #AACL

https://gyazo.com/279ac83ee7afadd5fb509a37d46de43c

https://www.aclweb.org/anthology/2020.aacl-main.6.pdf

選んだ理由

感情についての多様性が気になった + クリック前の並びに課題感を持っていそうに見えたため

主な貢献

ニュース閲覧時にニュースが与える感情の多様性を考慮したモデル SentiRecを提案した

ニュースに付与した感情ラベルを推定する補助タスクを学習に含む形で実現

感情の多様性に対する正則化手法を提案(今回は省略)

実世界データで推薦性能を維持したまま，感情の多様性を増すことができた

背景

ex. 青色のユーザーは物騒なニュースばかりが表示されている．https://gyazo.com/07d87255450853a8e759baf1e98b0e5b

ニュース一覧から受け取る感情に多様性がないために，ユーザー体験を損ねたり，受け取る情報が偏ってしまう懸念がある．(filter bubble)

またこの現象は推薦システムの過学習などで起こりやすい．

提案法

問題設定

あるユーザー$ uの

閲覧履歴$ H=[D_1, D_2, \dots, D_N]

感情ラベル(というか極性) $ [s_1, s_2, \dots, s_N] (neg -1 <= s_i <= 1 pos)

ニュース候補 $ C=[D^c_1, D^c_2, \dots, D^c_P]

感情ラベル $ [s^c_1, s^c_2, \dots, s^c_P]

から

各候補ニュース$ D^c_iのクリックスコア $ [\hat{y}_1, \hat{y}_2, \dots, \hat{y}_P]を推定する

評価は

ランキングされたニュースの感情の多様性 $ d =f(C', s) ($ C':ランキング結果, $ s:表示されたニュース全体の感情ラベル)

top N

MRR

で行う

モデル

https://gyazo.com/a0464b28f5365890cc45ed026ed14ac7

sentiment-aware(SA) news encoder

感情を考慮したニュースの文表現を作る.

ニュースタイトルからword embedding + Transformer で文表現を作る

提案手法の肝: 感情を考慮する補助タスクを以下の式で学習する

https://gyazo.com/fa9ea0eecc617c3eb1a62547d8514253

感情ラベルは既存の感情分析器を使って付与(感情辞書ベースのモデル)

VADER algorithm (Hutto and Gilbert, 2014)

user encoder

各ニュースの分散表現$ {\bf r}間の関係を考慮して分散表現を統合する．Transformerを使用

click predictor

シンプルに内積 r: 閲覧した各ニュースのsentiment-awareなembedding, u:ユーザーベクトル

https://gyazo.com/04d37068a7fb9c4d3e27011a121f2dd4

学習

負例はnegative samplingで収集．

ユーザーがどれかの記事をクリックしたときに，同時に表示されていた記事からランダムサンプリング

推薦のロスはnegative log-likehood.

https://gyazo.com/10807c8fecaed6f5152cf6bb0acad4dc

+はクリックされた，-はクリックされなかった記事のスコア

感情ラベル推定のロス，感情用正則化項を重み付きで足し合わせて最終的なロスを計算

https://gyazo.com/b84455c6ad3f4c4ed70717e07f9dd7c1

実験どうやって有効だと検証した？

データセット

実世界データ MSN News logs 2018.10.31~2019.1.29のニュース

https://gyazo.com/8a5c11f59a4779dcf5d70a1ff08c2819

感情ラベルの分布

https://gyazo.com/dc9e6e75bdabf03742151e8610f51ea4

ニュースはポジネガ半々だが，ユーザーの一覧ではネガ寄りになっている．

感情スコア別のCTRでは悲しいほどクリックされる😢

https://gyazo.com/6ecada451ef5f927ac07fae9b1672a44

結果

SentiRec-sameは同じ感情極性のみを表示させるパターン(min多様性ケース)

https://gyazo.com/491eae3f3ac1eda77df1819967ddfdc7

表2: 提案法がAUC以外でトップ

表3: 提案法の多様性が圧倒的に良い(ランダム超え)

SentiRec vs SentiRec-same: 極性合わせないモデルは感情の多様性を大幅に改善させつつ，推薦性能はほとんど落とさない👏

Ablation study

https://gyazo.com/2486d37ba9e7e05a09378f92b9690ac8

感情予測，感情の正則化ともに推薦性能，感情推定性能にプラスor維持

ケーススタディー - NRMS(推薦SOTAモデル) vs SentiRec

https://gyazo.com/b93fbcd98f0303137b5b7d3cc9e31859

犯罪系のニュース(=negative)を良く見ていたユーザーに，

NRMSはnegativeなニュースを推薦

SentiRecはpositiveなニュースが推薦されつつ，Broused News 3個目とファッションで関連したニュース(1個目)が出ている

推薦2個目も閲覧2個目と子供でうっすらつながっている(?)

ハイパラの影響

https://scrapbox.io/files/60daeb8f441b97001cf8d103.png

▼感情推定のjoint trainingは合ったほうが良い ▼多様性正則化が強く働くほど(μが大きいほど)多様性は上がる.

https://gyazo.com/cc0ead8e53b148e3da7daea6fc272ba9 https://gyazo.com/fabe308b53d96c748ab6988370e2302a