User Modeling with Click Preference and Reading Satisfaction for News Recommendation
https://gyazo.com/dea947d917ed660169c17dfdf53fab67
ユーザの興味をモデル化
記事タイトルに対するクリック
記事本文の読書行動(reading behavoir)
ユーザの記事に対する満足度を測定するためにパーソナライズされた読み取り速度指標を提案
ユーザが読んだ記事とその満足度からユーザ埋め込みを学習
クリックした記事タイトルから別の(?)ユーザ埋め込みを学習
組み合わせることで、記事推薦のための統一されたユーザ表現を作成
記事タイトルに基づくクリック予測
記事本文に基づく満足度予測
これらを使うことで、クリック率だけでなく、ユーザ満足度が高い記事を推薦するモデルをめざす
https://gyazo.com/73124959a64d3c3fdaa93b84136cdbed
ユーザによってニュースを読む習慣(速度)が異なる
平均的に読書速度には大きな差がある
満足度をモデル化するには読書速度も最適ではない可能性がある
貢献
クリック行動と満足度を考慮した読書行動の両方から、ニュース記事推薦のためのユーザの関心を推論する方法を提案
タイトルベースのクリック予測とコンテンツベースの満足度予測のタスクを用いて、ユーザモデルを作成
実データを用いて性能を検証するための大規模な実験を実施した
CPRS (Click Preference and Reading Satisfaction)
https://gyazo.com/652f68c96633c8141dafe7101d4e46d7
Satisfaction Modeling
$ i 番目のニュースの滞在時間を $ t_i, コンテンツの長さを $ n_i とする
コンテンツの読書速度 $ v_i は $ v_i = n_i / t_i で表される
ユーザの読書習慣は多様であるため、これでは満足のモデル化には不十分
ユーザの過去の平均読書速に対する比率を用いることでパーソナライズされた読書速度によるユーザ満足度を測定
personalized reading speed$ \hat{v} は$ \hat{v}_i = v_i / \left( \frac{1}{K} \sum^{K}_{j=1}v_j \right)
where $ K : 過去にクリックされたニュースの数
User Modeling (3つのAttention Network)
コンテンツ満足度のAttention Network
満足度を考慮して読んだニュースの本文からユーザの表現を選択的に学習する
content attention weight $ \alpha_i
https://gyazo.com/50466c5a610f42f6f1debb2dbce0858e
$ \mathrm{d}^c_i: $ i番目のニュース記事の本文
$ \mathrm{q}_c: content attention query
personalized reading speed$ \hat{v} を $ \hat{v}^{\prime} = \lfloor \log{2}(\hat{v}) \rfloor に mapping
$ \hat{v}'の埋め込みから線形変換を用いて attention query $ q_i を生成
ここのモチベーションどこにあるんだろう?(経験的なもの?)
satisfaction-based attention weight $ \beta_i
https://gyazo.com/b49ab20f5d602397632342b6e1fa7ef8
最終的なユーザ表現 $ u_r
i.e. $ u_c = \sum^K_{i=1} (\alpha_i + \beta_i) \mathrm{d}^c_i
ニュースタイトル Attention Network
クリックされたニュースタイトルからクリックベースのユーザ表現を獲得
クリックの興味を獲得するため
$ i番目にクリックされたニュースタイトルの表現$ d_i
この attention weight $ \gamma_i は content attention weight と同じように計算
クリックベースのユーザ表現 $ u_t はタイトル表現とそのattention weight で重み付けしたもの
行動(Behavior) Attention Network
クリック行動と読書行動は、ユーザの好みを表現する上で異なる重要性をもつ場合がある
例えば、あるユーザーがほとんどのニュースを非常に速く読んでも、いくつかのニュース記事をじっくりと読む場合、このユーザーの興味を表すには、クリック行動よりも読書行動の方が重要である可能性がある。
クリック行動ベースのユーザ表現$ u_t と 読書行動ベースのユーザ表現 $ u_r を統合したユーザ表現を形成
クリック、読書の attention weight は $ \delta_t と $ \delta_r
https://gyazo.com/1d0b7399dd64327020bb84f3d4ec7517
最終的なユーザ表現$ u は $ u = \delta_tu_t + \delta_cu_c で計算される
Click-Satisfaction Prediction
クリックと満足度からラベルをどう予測するか
$ \hat{y} = w^T_t[u;d^t] where $ w_t is パラメータベクトル、$ d^t: タイトル
$ \hat{s} = w^T_s[u;d^c] where $ w_s is パラメータベクトル、 $ d^c: 本文
https://gyazo.com/dec1f9ed2d6e08751e532b462a67dafa
$ S is training set, $ i_{\mathrm{th}} positive sample, $ j_{\mathrm{th}} negative-sample
https://gyazo.com/69cfbd121ed95f3cfd9bd46913654079
$ i番目の満足度スコアは $ s_i = \log_2(\hat{v}_i)
https://gyazo.com/6c84c70bd8cb37a2411ac73b7d243f55
$ \lambda : 満足度予測タスクの相対的な重要性を制御する係数
実験
データセット
500,000 news impression logs from Micrasoft News
2019/10/12 - 2019/11/13
最終週をテストデータに設定
https://gyazo.com/54e9b10cf8dbf7fa162a8b2382a76aba
結果
https://gyazo.com/713955d73a9c5545ba1c6e4a21b789c6
https://gyazo.com/ce610ed969879bbbe3baa6e4fbd7c9bd
https://gyazo.com/a1faa0a85acae10a2e70d46bcaaea1a2
5番目のニュースは満足を使わない場合Attention weightが高いが、閲覧速度は非常に速い → 満足度が低い