2019/10/10 Real-time Attention Based Look-alike Model for Recommender System https://gyazo.com/9f1147ed41003958a2cc89eeb7f0bc19
Applied Data Science Track, ニュースフィード推薦
Deepな推薦は精度が高いけど、CTRの高い人気な記事を推薦しがちで、ロングテールなアイテムは推薦されずらい
ロングテールなアイテムには、手動でPushされるようなものや、最新ニュース、Noveltyがあるものも多い
その結果、広範でタイムリーな推薦は難しくなる => マシュー効果(マタイ効果)ともよばれる。
その対策として、広告でよくやられているオーディエンス拡張をやる。
https://gyazo.com/166fd8856ce6db7fb9a4d93b514725d9
広告のオーディエンス拡張とは以下の点で異なる
Real-Time
コンテンツの価値がどんどん時間低減していくので
Effective
CTR推定とは独立しており、CTRを低下させないようにやる必要がある
Performance
大規模なユーザ、多くのコンテンツにたいして動かす必要がある
過去のLook-likeモデルはReal Time性が課題
Look Likeモデルやるために必要なのはUser RepresentationとSeeds Representation
本論文ではReal-time Attention Based Look alike Model (RALM)を提案
(1): User Representationのためにattention merge layerを提案
(2): Seed RepresentationでGlobal, LocalのRepresentationをやる
(3): Seedをオンラインで非同期的にクラスタリングする
貢献は以下の3点
User Representaionをいい感じにしたこと
Seed Representationのロバストさと適応性を向上させた
リアルタイムでハイパフォーマンスなLook-alikeモデルの実現
https://gyazo.com/44f05e293d7d03be79d6f1f5ace32697
システム図
スコアリングはこんなかんじでコサイン類似度の重み付け和
https://gyazo.com/dc45c4032b9077b1de932ff666a8c11a
https://gyazo.com/b47ac84a21e374708b144e2d98ef80c5
User Representation Leaningは3つの提案を含む
Samping
Model Structure
Attention Merge Layer
Sampling
User Representationを他クラス分類問題(どのアイテムに関心があるか)として解く
ほとんどのアイテムには関心がないのでNegative Samplingをする
w2vのNoise Contrastive Estimationっぽい手法
アイテムのimp数でランク付けしてランクに応じてサンプリングのされやすさがきまる
$ R_{seeds} \in \mathcal{R}^{n \times m}
m: userの埋め込み次元, nはseed users
seed usersはどうやらcentroid vector.
どのクラスタに所属しているかの推定モデル?
GlobalとLocalのAttention
https://gyazo.com/4c960101fb478fe78178d0a1b7db17a1
https://gyazo.com/da3826bc41ed4f30ab2b4e00ced2ac00
実験
オフラインの実験
https://gyazo.com/9247fe19d16f7b8fba2bd2f4e89c31c8
オンラインでの実験
https://gyazo.com/fa30d765d0e2b3cbbe54bb73d9cb1bce
所感
問題意識がわかりやすい
オンラインで伸ばせているの良い、シンプルなモデルでいいのでやりたい感ある