Wu+'22 Is News Recommendation a Sequential Recommendation Task? (SIGIR 2022)

#SIGIR #SIGIR2022

Paper: https://dl.acm.org/doi/10.1145/3477495.3531862

Authors: #Chuhan_Wu #Fangzhao_Wu #Tao_Qi #Yongfeng_Huang

読み手: #totake

TL; DR

ニュース推薦はsequential recommendation taskとしてモデル化されることが多いものの、sequential recommendationとして解くことが必ずしも適していないことを複数データセットに対する実験で示した

Motivation

ニュース推薦はsequential recommendation taskとしてモデル化されることが多い

代表的なもの: Okura+'17 Embedding-based news recommendation for millions of users (KDD 2017)

一定の成果を挙げている

多くのニュース記事推薦モデルに共通する一般的な構造

https://gyazo.com/736c26c76711a9160383c1c2ae8edfe9

特徴

ユーザーのクリック履歴にGRUやSelf-Attentionなどの系列モデリングの手法を適用してユーザーの興味をモデル化

sequential recommendation taskの仮定

ユーザーの過去の行動履歴には短期的な依存関係がある

ユーザーの未来の行動は直近の行動に関連する

問い：sequential recommendationの仮定はニュースドメインでも成り立っているのだろうか？

成り立っていないと思われるケース

https://gyazo.com/583d3bfe5b8ec727eb1474702acd4d22

（読み手コメント：これは同一ニュース判定という別の問題な気も）

MINDの分析からの示唆

クリック履歴中で隣接する記事が同じカテゴリである割合：7.2%（random: 7.9%）

〃同じentityを含んでいる割合：0.04%（random: 0.11%）

直近のクリックと似ているというよりはむしろ、多様で、noveltyが高いものをクリックしている

sequential recommendationとして解くことが最適ではない可能性

Key Idea

(1) 代表的なsequential recommendationのモデルに対して、ユーザーのクリック履歴の時系列情報を壊した場合のパフォーマンスを調査

クリック履歴を逆順にした時にパフォーマンスがどうなるか？

クリック履歴をシャッフルしたときにパフォーマンスがどうなるか？

(2) sequential recommendationではないモデルを用意しパフォーマンスを比較

Experiments

1. 時系列情報を壊した場合の挙動調査

Dataset

MIND

APP（自社 News Appのログから独自に作成）

sequential recommendation models

GRU4Rec: Okura+'17

ユーザーモデリングにGRUを使用

SASRec: Kang+'18

ユーザーモデリングにself-attentionを使用

BERT4Rec: Sun+'19

ユーザーモデリングにtransformerを使用

実験結果

https://gyazo.com/7129e20b2f40b3c84c9ae6e9fb229a3d

クリック履歴を逆順（inverse）にしてもパフォーマンスは下がらない

クリック履歴をシャッフル（random）してもパフォーマンスは下がらない（むしろ少し上がる）

2.直近のクリックに対して多様で新しいニュースを推薦できる（sequentialでない）モデルのパフォーマンス検証

temporal diversity-aware news recommendation method (TempRec)

直近のクリックに対して多様で新しい記事を推薦できるようなアーキテクチャ

長期興味/短期興味を捉える2種類のorder-agnostic transformer

position embeddingが入っていない

BERT4Recとパラメータ数を揃えるためパラメータ共有

https://gyazo.com/50df1264d85a9ff21172209f39e10503

最終的なスコアリング関数

$ \hat{y}=\hat{y}_g - \mathrm{max}(w, 0)\hat{y}_r, $ wは学習可能なパラメータ

直近のクリックとあまり似ていない候補記事の推薦をencourageできる仕組み

実験結果

https://gyazo.com/66cac0f0aa9cea77f4ba6c70540483b0

sequential recommendationのモデル達よりも良い結果

学習された$ wの平均値

MIND: 0.072, APP: 0.086

直近のクリックとはあまり関連しない記事を推薦するようになっている

短期興味のしきい値KはK=3が最適

Discussion

仮説検証の綺麗な実験

動画推薦などではどうなのか

The maximum number of historical news clicks is 50