When Choice Happens: A Systematic Examination of Mouse Movement Length for Decision Making in Web Search
https://gyazo.com/a5d03da403173f2de0eda9c071bbc81a
著者情報
Independent researcher
Telefonica research
ルクセンブルク大学
選んだ理由
ユーザーの直接的な行動ログのデータから何か得られる知見がないか気になった
このあたりの論文を読んでこなかったので
どんなもの?
人間は検索結果ページで 認識 -> 選択 -> 運動 を介して、数秒のうちに選択をしている
選択は最終的にマウスの動きに反映されるので、マウスの動きからユーザー行動のモデル化ができる
この研究では(1)広告に気づく (2)ページを放棄 (3)不満を抱く のシナリオについて2秒間のマウスの動きがあれば予測が可能であることを調べた
適切な量のデータを効率的に記録することで、ストレージ等を節約、ユーザープライバシーを尊重をした上で、機械学習モデルのトレーニングやデプロイ速度を向上させることができる
先行研究と比べてどこがすごい? (貢献)
IRではユーザー行動の殆どがクライアント側で行われる
どのようにコンテンツが消費されたかを知るために、アイトラッキング等が研究では使われてきた
アイトラッカーは非常に高価
Webカメラは手頃だがノイズが大きい
従来研究で視線とマウスカーソルの関係を調べた研究は数多くあり、関連がある十分な証拠が得られている
マウスカーソルの動きは低コストで獲得できるのでアイトラッキングに代わる手法として注目されている
RNNは生の動きをそのまま入力・活用できるので特徴量を自分で作らなくて良い
RNNは同じバッチ内ではシーケンスの長さが同じでないといけない
https://gyazo.com/931bdfbd66df3faf98a7c814ec7a3d2b
上記の方法で異なる長さのシーケンスを扱うのが一般的
それぞれの処理方法について、どれがモデル作成の上で効果的かを調べた
+ どの程度の長さがそもそも必要なのかを調べた研究は本研究がはじめて
適切な量が分かれば帯域幅やストレージを節約することができ、ユーザーのプライバシー保護に貢献する
検証内容
マウストラッキングの公開データセットを使用 (あるらしい)
attention (ads noticeability) (広告の見やすさ、広告に気づいてもらえたか)
page abandonment (良い放棄の検知)
user frustration (ユーザーフラストレーションの検知)
の場面の推論にどの程度の時間のシーケンスが必要かを調べた
attention (ads noticeability)
データセットはGoogle検索でのマウスシーケンスのログ
(例) "buy rolex watch" で検索 -> 広告の表示 -> 広告に気づいたどうか のラベル と 付随するマウスの動き がデータとしてある
全件: 716件、広告に気づいた件数: 476件
page abandonment
データセットはYahoo検索でのマウスシーケンスのログ
情報提供型のクエリ (例:"Brad Pitt's age") -> 閲覧中のページの放棄 -> 良い放棄 or 悪い放棄 のラベル と 付随するマウスの動き がデータとしてある
(ここでいう良い放棄はどこもクリックせずに離脱した場合を指す。情報提供型のクエリに対して何もクリックしなかった場合、検索結果画面の段階で解答を提供できた可能性が高いという判断)
全件: 133件、良い放棄: 77件
user frustration
データセットはGoogle, Yahoo, Bing, Ask.com検索でのマウスシーケンスのログ
検索に対するフラストレーションラベル と 付随するマウスの動き がデータとしてある
全件: 259件、イライラしたケース (5段階評価の4以上): 30件
上記のデータセットそれぞれについて、3 padding modes * timestamp (10, 20, 50, 100, 200, and full length) で検証した
結果
性能面評価
https://gyazo.com/b3b4645420c673800c0c84caeaa7b2e7
F1-ScoreとAUC-ROCを報告
full lengthは性能を悪化させる (full lengthはデータセット中の最長のシーケンスに長さを合わせる)
attentionタスクの場合、最初100ステップが有効
最初20ステップは最初100ステップと同じくらい有益
page abandonmentの場合、最後の10ステップがより良いパフォーマンスを出す
user frustrationの場合、性能が良いのは中間ぐらいのタイムステップ構成されているパターン
すべてのシナリオで短いタイムステップを使うことがfull lengthを使うのと同等か、それ以上の性能をもたらす可能性が高い
速度等評価
https://gyazo.com/4ebe8aeaa0b7edc6633636334b7bdd77
短いタイムステップでも十分に性能が出せるという結論の上で、
短いタイムステップだとトレーニング短くてすむ
短いタイムステップだとストレージ少なくてすむ
それはそう
考察
attention
広告に気づく際は視覚情報として最初に気づき、後追いでマウスが付いてくる。マウスの動きはユーザーの判断から最適化された動きになるため初動に十分な情報が含まれている
page abandonment
「放棄」という行為は「あきらめる」ことを意味しているので、検索セッションの終わりに発生する。よってタイムステップの終盤に十分な情報が含まれている
user frustration
今回の結果では比較的中間時点を含むこと有益であったが、フラストレーション自体はどのタイミングでも発生しうるため、本質的にマウスの動きだけでは予測が困難
attention、page abandonmentでは最初 or 最後の20タイムステップ (3秒程度) のデータがあれば十分
議論はある?
スマートフォンファーストな世の中になってきたので、マウスのトラッキングを貯めておくことによるメリットは限定的になりそう
マウスに該当するものがスマホ等のタッチデバイスにはないので流用も難しそう