Pan+'23 Learning and Optimization of Implicit Negative Feedback for Industrial Short-video Recommender System (CIKM'23)
TL; DR
ショート動画アプリ「Kuaishou」
暗黙的なネガティブフィードバックを活用するために、動画の再生時間から分割したマルチタスク学習ベースのモデルを導入
A/B テストにて、DAU・視聴時間の向上だけでなく、リストの多様性が向上するなどのポジティブな結果が得られた
背景
ショート動画アプリは、従来とは異なるインタラクション方式で、新しい課題が提起されている
従来のアプリでは、クリックや購入、コンテンツの評価のような明示的なフィードバックからユーザーの興味を学習できる
ショート動画アプリでは、連続的に表示される動画に対してスキップすることができるが、そのフィードバックから動画に対するユーザーの興味を学習する必要がある
「good 👍 」や「bad 👎」などの明示的な評価機能があっても利用者は一部に限られる
課題
ユーザーの行動の多くが暗黙的なスキップフィードバックであった場合、ユーザーの興味抽出は曖昧になる
その他のスキップ以外の行動を含むあたらしいフィードバッグから学習することは困難
既存の推薦システムでは、さまざまな指標の最適化を目的としているため、複数の指標に基付いたモデルの最適化が困難
スキップ率の最小化や視聴時間の最大化など
提案手法
フィードバックのシーケンシャルエンコーダ
目的: ネガティブフィードバックと、2種類のポジティブフィードバックを活用
動画の視聴履歴を3種類シーケンスに分離(中身は0,1)したものを embedding → self-attention → feed-forward
コンテクスト特徴の埋め込み層
目的: ユーザー履歴に加えて、コンテキスト情報(ユーザー属性、アイテムの属性、位置情報など)も活用
各特徴量を concat → transform (フィルタリング&ノイズ除去?) → feature importance alignment
マルチフィードバック予測
目的: 3種類のフィードバックタイプを3つのタスクとして捉えて、多目的最適化を行う
ゲートネットワーク + ディープニューラルネットワークを組み合わせて各タスクの予測
フィードバックタイプの分類
https://gyazo.com/178a6ec00a9bc6b345c7c94bdb5d0719
提案システム
https://gyazo.com/9f2100ad8e59b5bbccb6e74209bbfa26
実験
オンライン実験
ショート動画プラットフォームの 「Kuaishou」にて A/B テスト
Discover ページと Featured ページの2ページ
ベースライン
we remove the mixed feedback encoder from the proposed model
なので、アイテムとユーザー、ページ情報を使って推薦するもの?
結果
https://gyazo.com/344f8a2d1813ab101cf07e663bf312c5
A/B テスト結果
DAU や 再生回数、再生時間、いいねなどが増加
逆に、Reduction Users などのネガティブフォードバックが減って良い結果
UGCのショート動画がメインなので「このユーザーの表示を減らす」とかな気がする
https://gyazo.com/c9622fd2c723d413d83da29a888b87c8
ポップアップでのアンケート結果(YouTubeのこの動画はあなたにあっているかどうかみたいな?)
動画の評価やアプリの評価?がどれも向上傾向
https://gyazo.com/9c041219dcca310661e7c1f482206c14
Discover ページと Featured ページの2ページでの実験で、どちらも良い結果
Forward = 次の動画をみる?
Reduction = 類似の動画を減らす?
https://gyazo.com/ad5fedcb9ea329bce80e45ba92703a19
1週分のアプリの利用時間や、動画の再生時間、アクティブユーザーなどをそれぞれ異なる視点で2グループに分けて可視化
a: Usage Duration (アプリの利用時間)
blue: Growth-stage Users ... 全体のユーザー - 新規ユーザー - 休眠ユーザー - 離脱段階のユーザー
初日 -0.029%, 3日目以降では 0.282% 増加
(ユーザーがフィードバックに慣れるまでに多少ラグがある説?)
b: Play Duration on Single-column Page
ショート動画、全体の動画で再生時間向上
c: Players and Visitors
メインページ、Double-column ページで増加
d: Daily Active User
Low-acitivity Users の場合3日目程度まではビハインドだが、それ以降で向上傾向
全体のユーザーでみると、どの時点でも向上傾向
e: Similar Recommended Reduction (類似動画を減らす)
経過とともにフィードバック数が減少傾向(良い傾向)
https://gyazo.com/9d77ececd36a3ebf68fd819a81dd0af7
DAU と Usetime の向上率
Growth-stage ... 全体のユーザー - 新規ユーザー - 休眠ユーザー - 離脱ユーザー
Maturity-stage ... Growth よりアクティブなユーザー
Recession-stage ... 離脱手前のユーザー?
Low-acitivity-stage ... 低アクティビティなユーザー
アクティブなユーザーだけでなく、ライトユーザーにも効果が大きい
https://gyazo.com/cd5b7174bdbb25332e1477ac525a8a17
モデルを実際のプロダクトに導入して 6ヶ月
60万ユーザー
ユーザーの視聴履歴から 100 件の動画を抽出
ユーザーを low-exposure user と high-exposure グループに分離
ネガティブフィードバックを積極的に表明するユーザーの方が多様なコンテンツを推薦することができていることが判明
アプローチが有効であると示した
議論
これといったものはなし
フィードバックの学習と多目的予測/最適化をいかに組み合わせるか
今後はシーケンシャルモデリングとフィードバックの学習を組み合わせて、さらに改善する予定