Wu+'22 Is News Recommendation a Sequential Recommendation Task? (SIGIR 2022)
TL; DR
ニュース推薦はsequential recommendation taskとしてモデル化されることが多いものの、sequential recommendationとして解くことが必ずしも適していないことを複数データセットに対する実験で示した
Motivation
ニュース推薦はsequential recommendation taskとしてモデル化されることが多い
代表的なもの: Okura+'17 Embedding-based news recommendation for millions of users (KDD 2017)
一定の成果を挙げている
多くのニュース記事推薦モデルに共通する一般的な構造
https://gyazo.com/736c26c76711a9160383c1c2ae8edfe9
特徴
ユーザーのクリック履歴にGRUやSelf-Attentionなどの系列モデリングの手法を適用してユーザーの興味をモデル化
sequential recommendation taskの仮定
ユーザーの過去の行動履歴には短期的な依存関係がある
ユーザーの未来の行動は直近の行動に関連する
問い:sequential recommendationの仮定はニュースドメインでも成り立っているのだろうか?
成り立っていないと思われるケース
https://gyazo.com/583d3bfe5b8ec727eb1474702acd4d22
(読み手コメント:これは同一ニュース判定という別の問題な気も)
MINDの分析からの示唆
クリック履歴中で隣接する記事が同じカテゴリである割合:7.2%(random: 7.9%)
〃同じentityを含んでいる割合:0.04%(random: 0.11%)
直近のクリックと似ているというよりはむしろ、多様で、noveltyが高いものをクリックしている
sequential recommendationとして解くことが最適ではない可能性
Key Idea
(1) 代表的なsequential recommendationのモデルに対して、ユーザーのクリック履歴の時系列情報を壊した場合のパフォーマンスを調査
クリック履歴を逆順にした時にパフォーマンスがどうなるか?
クリック履歴をシャッフルしたときにパフォーマンスがどうなるか?
(2) sequential recommendationではないモデルを用意しパフォーマンスを比較
Experiments
1. 時系列情報を壊した場合の挙動調査
Dataset
MIND
APP(自社 News Appのログから独自に作成)
sequential recommendation models
GRU4Rec: Okura+'17
ユーザーモデリングにGRUを使用
SASRec: Kang+'18
ユーザーモデリングにself-attentionを使用
BERT4Rec: Sun+'19
ユーザーモデリングにtransformerを使用
実験結果
https://gyazo.com/7129e20b2f40b3c84c9ae6e9fb229a3d
クリック履歴を逆順(inverse)にしてもパフォーマンスは下がらない
クリック履歴をシャッフル(random)してもパフォーマンスは下がらない(むしろ少し上がる)
2.直近のクリックに対して多様で新しいニュースを推薦できる(sequentialでない)モデルのパフォーマンス検証
temporal diversity-aware news recommendation method (TempRec)
直近のクリックに対して多様で新しい記事を推薦できるようなアーキテクチャ
長期興味/短期興味を捉える2種類のorder-agnostic transformer
position embeddingが入っていない
BERT4Recとパラメータ数を揃えるためパラメータ共有
https://gyazo.com/50df1264d85a9ff21172209f39e10503
最終的なスコアリング関数
$ \hat{y}=\hat{y}_g - \mathrm{max}(w, 0)\hat{y}_r, $ wは学習可能なパラメータ
直近のクリックとあまり似ていない候補記事の推薦をencourageできる仕組み
実験結果
https://gyazo.com/66cac0f0aa9cea77f4ba6c70540483b0
sequential recommendationのモデル達よりも良い結果
学習された$ wの平均値
MIND: 0.072, APP: 0.086
直近のクリックとはあまり関連しない記事を推薦するようになっている
短期興味のしきい値KはK=3が最適
Discussion
仮説検証の綺麗な実験
動画推薦などではどうなのか
The maximum number of historical news clicks is 50