2019/05/16 Identifying Modes of User Engagement with Online News and Their Relationship to Information Gain in Text 著者: Nir Grinberg
所属: Network Science Institute, Northeastern University Institute for Quantitative Social Science, Harvard University
イントロ
従来の情報検索、推薦システムはCTR(server-recorded log)を利用
ユーザエンゲージメントを知るのにはクリック後のログ(client-side log)重要
滞在時間、カーソル移動、ハイライト
コストは高い
編集者に有用
エンゲージメントのモードを区別することは推薦システムに有用
論文の貢献
ニュース記事に対するユーザエンゲージメントに有用なコンパクトな指標
ニュース記事のテキストのInformation gainの指標
大規模で多様なニュースサイトに対してinformation gain とユーザエンゲージメントとの関連を実験的に示す
データ
7つのニュースサイト
770万PV
https://gyazo.com/66155c5b72ab0d28227ce8025d908a1a
dwell time
maximal depth (pixel)
active engagement
マウス移動、スクロール、スワイプ、キータイプなどの総量
絶対値のままだとページ長、デバイスなどによって異なるので相対化
https://gyazo.com/a9daa6a58f47c79bf8c28c3a05570982
エンゲージメントのモード
6つの数字からなるベクトルを利用して、5クラスに分類
ユーザのエンゲージメント
Scan、Read、Read(long)、Idle、Shallow
Idleは動画をみているわけではなかった
https://gyazo.com/66cb3aa179710ba04363289db1ec26a6
https://gyazo.com/85c514c6ff04d95915bc482bd9900c7d
ニュース記事をユーザエンゲージメントで表現
SportsはScanが多い
MagazineはRead(long)が多い
https://gyazo.com/8ac73cd8865f7ff8d1c25a6708545829
エンゲージメントの予測
Dirichlet Regression model
Baseline
テキスト長、画像の割合
トピックモデル: LDA、TUNE
Text = Difficulty + Sentiment + SIG + LDA + TUNE
Audience
モバイルユーザの割合などのvisitorの情報
https://gyazo.com/4dc387ae0920a922ee90dd2727f84f37
所感
クリック後のアクティビティで、エンゲージメントのタイプを分けるのはよさそう
実際にサービス影響がどのくらいでるかわからないけど、試してみたい