Values of User Exploration in Recommender Systems
https://www.youtube.com/watch?v=6hStzk5nCKg
Google
Minmin Chen, Yuyan Wang, Can Xu, Elaine Le, Mohit Sharma, Lee Richardson, Su-Lin Wu, Ed Chi
選んだ理由
探索の効果を検証しているレアな論文ぽかったので
Google
概要
強化学習(RL)は次世代の推薦システムとして注目されている
RLは探索と活用を基礎としているが、探索の価値についてはあまり理解されていない
一般的に、探索はユーザのフィードバックが疎な領域でモデルの不確実性を低減するためのツールと考えられている
短期的にはユーザ体験を犠牲にするが、より良いモデル品質という利益が後から得られると考えられている
我々は、探索の別の側面(新しい興味の発見・ユーザ探索)に注目し、探索の必要性を主張する
RL推薦システムにおいてユーザ探索を増加させる手法を導入し、推薦品質(精度、多様性、新規性、セレンディピティ)の効果をオフライン・オンラインにて検証
探索(セレンディピティ)により長期的なユーザ体験(再訪率・ライトユーザのヘビー化)の向上を示した
背景
協調フィルタリングや教師あり学習の推薦システムが大きな成功を収めている
クリック数、滞在時間、いいね!など
しかし、研究者たちはこれらのアプローチの限界に気づき始めている
1. 短期的なエンゲージメントに焦点を当てると、長期的なエンゲージメントを考慮できない
2. 探索不足により、既知のユーザの興味に益々集中し、飽和効果(楽しみの減少)を引き起こす
(feedback loop)
RLがその解決案として長年注目されている
利点
1. 探索
2. 長期的なユーザ体験の最適化
RLの適用期間が長くなるほど、システムは短期的なユーザ体験の最適化から長期的なユーザ体験の最適化に自然とシフトしていく
関連研究
強化学習(RL)
深層強化学習
ゲームやロボット工学で盛ん
RLベースの推薦システム
2005, 書籍推薦, Markov 決定過程 (MDP)
2018, ニュース推薦, DQN
2018, 映画・音楽推薦, actor-critic approaches
2019,2019,2017, 集合推薦
実世界への応用(RLベースの推薦システム)
2019, 数十億のユーザと数千万のコンテンツを扱う商用プラットフォームへ拡張, バッチ型RL
探索(RL)
古くは、バンディット
Upper Confidence Bound (UCB) (1985) と Thompson Sampling (TS) (1993)
頻度ベースの探索(RL)
intrinsic motivation(内発的動機付け) と呼ばれる手法(2011,2009,1995)
エージェントに驚きに至る領域を探索するように促すもの
2016, 上記2つを融合
推薦の質(Diversity, Novelty, Serendipity)
2004, 推薦精度、カバレッジ、新規性、セレンディピティの定義
多様性
2015, 多様化アルゴリズムは,ユーザの興味・関心の全範囲のカバレッジを高め,類似コンテンツの消費による飽和効果に対抗するために使用される
2010, 精度と多様性のバランスをとるためのハイブリッドアプローチ
新規性
2012, ロングテール推薦と密接な関わり
セレンディピティ
2004, 推薦がユーザにとって関連性があり,かつ意外性がある度合い と定義
2011, ユーザが興味を示した項目を項目属性に基づいて混合する融合手法
2012, accuracy, diversity, serendipityごとのLDAモデルの出力の組み合わせ(ハイブリッドアプローチ)
手法のキモはどこ?
BACKGROUND
RLベースの推薦システム
割愛(関連研究で挙げたyoutubeのモデル)
↑ baseline
手法
探索性を増加させる手法を3つ紹介
Entropy Regularization
多様なアイテムを推薦すると、累積報酬が大きくなるような正則化を与える
第2項
$ \max _{\theta} \mathcal{J}\left(\pi_{\theta}\right)+\alpha \sum_{s_{t} \sim d_{t}^{\beta}(s)} H\left(\pi_{\theta}\left(\cdot \mid s_{t}\right)\right)
Intrinsic Motivation and Reward Shaping
ユーザが過去にインタラクションしていないようなアイテムを推薦した場合の報酬を大きくする
$ R_{t}\left(s_{t}, a_{t}\right)= \begin{cases}c \cdot R_{t}^{e}\left(s_{t}, a_{t}\right) & \text { if recommending } a_{t} \text { under } s_{t} \\ & \text { leads to discovery of previously } \\ R_{t}^{e}\left(s_{t}, a_{t}\right) & \text { unknown user interests; } \\ & \text { otherwise. }\end{cases}
c > 1
ユーザが過去にインタラクション
topicやclusterで判定
Actionable Representation for Exploration
ユーザのインタラクションのうち、他のアイテムと異なる属性(topic,cluster)をもつ、かつ、ユーザに関連しているアイテム かどうかを示すフラグを追加する
過去の状態に i を追加
$ \mathcal{H}_{t}=\left\{\left(A_{0}, a_{0}, r_{0}, i_{0}\right), \cdots,\left(A_{t-1}, a_{t-1}, r_{t-1}, i_{t-1}\right)\right\}
i = 0 or 1
オフライン実験
オフライン実験では、上記3つのメソッドが4つの評価指標に与える影響を調査
アイテム属性
Topic cluster
k-meansで1万クラスタ生成
Content provider
コンテンツ提供者情報
フードブロガーが特定の料理について書くことが多いなど
コンテンツ提供者の多様性や新規性が長期的なユーザ体験に影響を与えることの重要性を理解したかった
評価指標
Accuracy
mAP@50 (mean average precision at K = 50)
Diversity
https://gyazo.com/62b8d3cf2d9be7247d7802071ddab5fa
推薦アイテム(i, j)が同じ(topic, provider)であれば、1
異なる(topic, provider)のアイテムが多いほど、大きな値をとる
※新規性とセレンディピティという2つの用語は、文献上では互換的に使用されている。本研究では、新規性はグローバルな人気に基づく測定に焦点を当て、セレンディピティは特定のユーザに対する推薦の意外性を捉えるために使用する。
Novelty
ユーザがすでに知っていたり、自分で発見したりしそうにないものを推薦する能力に関するもの
$ \begin{aligned}I(a) &=-\log p(a)=-\log \frac{\# \text { users consumed item } a}{\# \text { users }} \\&=-\log (\# \text { users consumed item } a)+\text { const }\end{aligned}
p(a): アイテム a を消費する確率
I(a): グローバルに探索されにくいアイテムほど、大きな値をとる
https://gyazo.com/dc88f9c28c4f5f96137c49b00945f776
学習済みpolicy$ \pi_{\theta}の新規性を測る
未開発なアイテムを推薦できるポリシーほど、新規性が高い
Serendipity
重要な要素が2つ
意外性
ビートルズのリスナーにジョン・レノンを推薦しても、意外な推薦にはならない
関連性
意外性のあるコンテンツは、ユーザにとって興味深いものでなければならない
あるユーザのアイテム $ a_t のセレンディピティ
$ S^{t o p i c}\left(a_{t} \mid s_{t}, \mathcal{I}_{t}\right)= \begin{cases}1 & \text { if } r^{e}\left(s_{t}, a_{t}\right)>0 \text { and } a_{t} \text { belongs to } \\ & \text { a different topic cluster than any } \\ & \text { item in } \mathcal{I}_{t} \\ 0 & \text { otherwise }\end{cases}
期待報酬 > 0 and 過去のどのアイテムとも異なるtopic であれば 1
content-provider の場合も同様
https://gyazo.com/04be8fc27359d507ea2c27f8e2938d0c
データセット
商用レコメンデーションプラットフォームから10億のユーザログを抽出
最低1回のインタラクションがあるユーザに限定
履歴は最大500件
1%を評価データに
アイテムは過去48時間のうち人気上位1000万件に限定
結果
https://gyazo.com/9d8a725732883548a4b4289eaac0149e
table 1 - entropy regularization
α が大きいほど、多様となるロジック
Accuracyの低下を犠牲に、DiversityとNoveltyが増加
Serendipityはαを大きくしすぎると駄目になる
ユーザとアイテムの関連性が失われるため
table 2 - intrinsic motivation
d
ユーザのコンテンツの驚きに対する認識は時間の経過とともに移っていく
また、過去に接触したコンテンツと、長い間接触がない場合、再度登場したときに驚きと感じることがある
そこで、過去1日、1週間、1年の間にユーザが接触したすべてのコンテンツを学習に利用
Accuracyの低下を犠牲に、Diversityが増加
Noveltyは変化なし
Serendipityは大きく改善された
topicでもproviderでも改善されたのだが、オンライン実験では、非常に異なるパフォーマンスとなった
ウィンドウサイズ d を大きくするほど、Diversityは小さくなった
アイテム同士(topic)が異なる可能性が小さくなるため
d = 7 がよさげ
table 3 - Actionable Representation
intrinsic motivationと併用した場合が最も効果的
https://gyazo.com/119f0c505e93ea131eb707adfb419760
縦軸: RNNの入力ゲートの活性化値
左: 意外性があると考えられるイベントを入力した場合
右: not
Actionable Representation を加えることで、セレンディピティとなるイベントとそうでないものをより区別することができるようになっている
スライドだとめっちゃシンプル (Diversityはイコールなんだろうか)
https://gyazo.com/95c0852c140d632602b9c6870b7c5672
オンライン実験
数十億のユーザを対象とした産業用推薦プラットフォーム上でA/Bテストを実施
比較手法
BaselineのRL
entropy regularization を加えたBaseline
α = 0.1, 0.5
intrinsic motivation を加えたBaseline
days=7
c = 4
topic cluster
Actionable Representation + intrinsic motivation
各エージェントは1000万候補から数百件の候補を選択する
候補のリランキングは別のシステムに委ねる
評価指標
Long Term User Experience
長期的なユーザ体験の改善の全体的な測定
離脱したユーザの復帰
ライトユーザからヘビーユーザへの移行
結果
https://gyazo.com/88850f16d714fbc3f0f2c332d426b292
縦軸: 総合的なenjoyment (独自KPI)
(a) 赤:α=0.1, 青:α=0.5
オフラインとライブの両方の実験で多様性と新規性を高めるものの、ユーザのenjoymentを大きく改善することにはつながっていない
(b) 6 weeks実施
大幅な改善を確認
(c) 2 weeks実施
大幅な改善を確認
これらの結果から、セレンディピティは長期的なユーザ体験の向上につながる推薦品質の重要な要素であるという仮説が立てられる
appendix
topic clusterとcontent providerの比較も行った(詳細なし)
content providerではenjoymentの改善が見られなかった
topic clusterのセレンディピティの方が長期的なユーザ体験の向上につながる可能性が高いことを示唆
https://gyazo.com/81651f811f9a58f88e1db1e63b5a388e
intrinsic motivation と baselineとの比較
縦軸: 再訪率
顕著な改善を確認
セレンディピティ情報を用いて学習することで、学習したポリシーがさらに向上し、全体としてより良いユーザ体験につながっていることが示唆される
Learning Effect of Intrinsic Motivation
https://gyazo.com/4c54948e1d13fc7f16cc0fe1ef2d894c
intrinsic motivation と baselineとの比較
トピッククラスタの数とエントロピーの追跡
実験中、一貫してtreatment群が高い
また、時間が経過するほどより探索が進んでいる
これより、ユーザが継続的に新しいトピックを見つけ、それに関わることができるようになったことが示唆
User Activity Levels
推薦プラットフォームの長期的な目標は、現在のセッションでユーザのニーズを満たすだけでなく、将来的にはより頻繁に訪れてもらうことが理想
レコメンデーションに探索を加えることが、ユーザの活動レベルに何らかの影響を与えるかどうかを確認
https://gyazo.com/9bdd2feece9e6404ea9dd3a5c17da690
実験前後でのユーザの活動レベル遷移行列
Casual userからCore userへの転換率が大きく向上していることがわかる
これより、探索戦略が成功すると、あまりアクティブでないユーザがより熱心になるため、理想的なユーザの動きになることを示唆している
終わりに
これは、(RLベースの)推薦システムにおける探索とセレンディピティを理解し、改善するための重要な第一歩であり、(この方向での)未来の研究の基礎を提供するものであると信じている
所感
Casual -> Emergingの遷移も増加してたら完璧だったように思える
A/Bテスト中、売上落ちてそう(アクティビティは減少しているであろうので)
戦略的投資
ニュースドメインにおけるセレンディピティの範囲・粒度は気になる
ビートルズのリスナーにジョン・レノンを推薦しても、意外な推薦にはならない
音楽ドメインなら確かにそう(ビートルズっぽい近代のアーティストの曲が欲しい)
ニュースでビートルズっぽいアーティストの情報提供したとして、気付かれなさそう(タイトルによる)
広告もセレンディピティ増やせば継続率上がるんだろうか(上がりそう)
https://gyazo.com/c97fb0d0915bf321e43a3b042208d472