Users Versus Models: What Observation Tells Us About Effectiveness Metrics
著者:Alistair Moffat, Paul Thomas, Falk Scholer
選んだ理由
検索や推薦の評価指標は様々存在しているが、それらを抽象的かつシンプルにモデル化したいと思ったので
どんなもの?
様々な評価指標の前提となっている定性的な要因を整理し、実際のユーザー行動との関係性を調査した
ユーザースタディを実施し、ランキングにおける位置の影響やクリックの行動を評価した
結果として、ユーザー行動は下記をはじめとして様々な要因に影響をうけることを明らかにした
消費済みのランキングにおける適合文書の数
検索過程におけるフェーズ
検索タスクの難易度などが主な要因
最後に得られた知見から新たな評価指標を提案
先行研究と比べてどこがすごい?
様々な評価指標を包括的かつシンプルに表現した
既存の検索におけるユーザー行動の仮定を包括的かつシンプルに説明した
これらをユーザースタディを通して検証した
結果として、複雑なユーザー行動を生み出す根本となる要因を明らかにした
技術や手法の肝はどこ?
抽象化
様々な評価指標は下記の通り表現できる
https://gyazo.com/067a193b6f891d7de8cc495a66c06d88
W: 位置における重み(直感的な解釈:W(i)はiまで遷移がくる確率)
r: 適合度
重みWの言い換え
位置における重みWは、
C: 位置iから位置i+1への遷移確率
L: 位置iにおける停止確率
に言い換えることもできる
Cの定義: 位置iから位置i+1への遷移確率
https://gyazo.com/37efb1ff82e7a73f4187aab715a20699
WのCとの関係性
https://gyazo.com/c21d34966d12cc87e577e1268e0274a2
Lの定義: 位置iにおける停止確率
https://gyazo.com/d5c77e008d39d88afefeee9b71e42e17
CとLの関係性
https://gyazo.com/4a26d2741853548a68b8f088e523f145
C(i)はiで停止する確率L(i)が高い場合、i+1への遷移確率は低くなる
なお、これらのC,W,Lをあわせて評価指標を解釈するフレームワークはC/W/L (coolと発音) と呼ばれる
評価指標の整理
Static User Models: Cがランキングにおける位置にのみ依存するモデル (別名: positional models)
Precision: Prec@kは位置kで走査終了
Discounted Cumulative Gain: log-scaleでgainが減衰
Rank-Biased Precision: C(i) = p (parameter) で一定
Inverse Squares: Cがユーザーが期待する適合文書の数に依存
Adaptive User Models: Cが文書の適合性に依存するモデル (別名: cascade models)
Reciprocal Rank: 適合文書があったら走査終了
Average Precision: その順位までにおける正解率を、各正解データの部分に限定して平均を取ったもの
どうやって有効か確認した?
種々の指標がC/W/Lの観点からユーザー行動をどれほど正確に表現できているか?を検証
ユーザーの行動仮説を設計し、
各検索タスクに対するユーザースタディを通して仮説を検証する
ユーザー行動の仮説サマリーテーブル
https://gyazo.com/f9fd88ff555bca6a7194648e09e55bbb
ユーザーの検索目的は、一つの適合文書の発見(navigational)または複数の適合文書の発見(informational)の場合がある
ユーザーはランキングの下部に行くにつれてアイテムを目に触れる確率は小さくなる
ユーザーはランキング上で、すでに目に触れたアイテムから影響をうけ、そのアイテム以降の行動が変化することがある
ユーザーはユーザーの情報要求が満たされなくてもランキングから離脱することがある
ユーザースタディ
実験の流れ
デモグラ情報を記入 (34参加者、26人男性、8人女性だった)
検索タスクを表示
検索タスクに対する情報要求ニーズを満たすには、適合文書は何個必要だと思うかを回答
Yahoo!検索上で検索タスクを実施 (アイトラッキングも併用)
検索タスク
https://gyazo.com/01a7c926278658be93deaaaeecab6611
remember, understand, analyzeという検索タスクの難易度を設定
remember: 問に対して、検索した答えを思い出せるか
問の例:Discovery Channelで深海魚を見て深海に興味を持った。海の中で最も深い場所の名前はなにか?
understand: 問に対して、回答元となる文書のを理解した上で回答できるか
問の例:甥がオーストラリアルールのサッカーチームのトライアウトを受けようとしていて、両親は賛成している。あなたはスポーツは危険で健康上のリスクが有ると考えている。サッカー選手が直面する長期的な健康上のリスクはなにか?
analyze: 問に対して、回答元となる文書の内容を整理し、理論だった回答が行えるか
問の例:オーストラリアでは成りすましが増えているらしい。そのため成りすましを防止したい。他人がクレジットカードを成りすまして作成するのはどれほど難しいか?将来的になりすましに備えるための有効策はなにか?
starter query: 初期表示されている文書を生成元となった初期クエリ
結果
適合文書の数Tに関する結果
https://gyazo.com/d826f13bfe984be936f8e6db49ba5fac
情報ニーズを満たすのに必要と予測された適合文書数(左)は、タスクの難易度が上がるにつれて増えるわけではなかった
実際に情報ニーズを満たすのに有用と判断された文書(右)は、タスク難易度によらず比較的小さかった(1~3の間)
アイトラッキングに関する結果
https://gyazo.com/69aaa751e3fddea57edaa2792f048ae5
あるランキングの位置にユーザーの視線が移動するまでの時間 (a)
ランキングの位置が深くなるに連れ、ユーザーがアイテムを目にするまでの時間が長くなった
視線の移動幅 (b)
ユーザーの視線移動はランキングの位置を遡ったり飛び越えることがある
例えば、位置1,2,4,3,5といった視線の移り変わりがありえる
ユーザーが目にした最後の文書の位置の頻度 (c)
first viewの最後である位置7が最頻値、1pageめの最後である位置10が次に多い
位置iから位置i+1への遷移確率Cに関する結果
https://gyazo.com/b5e0f43440aa306ea99cfe8fa55816c8
Cは0.75程度で一定のように見える
そこで、Cを回帰モデルを使って予測し、重みを観測した
https://gyazo.com/c72b766f8579f47469589ba61c846f39
Effectが大きいと、Cも大きい。1より値が大きいとCが大きくなることを表す
UserごとにEffectはばらつきが大きい
適合文書の閲覧割合が大きくなると、Cは小さくなる
提案行動モデル
論文の最後で、これまでの分析結果を踏まえ新しいモデルを提案
https://gyazo.com/31459a31d959e8548796a58ad6314b13
適合度を動的に累積していくような指標を提案
https://gyazo.com/b1445326dc23cd8a3d92d21f70c4b14d
https://gyazo.com/01e399e51505b524218d7b0b2e1dc40c
なお元のINSQは下記の形
https://gyazo.com/a1c18a314ab929cd6a93b6c1f35bb661
提案モデルC'はTの一つがT_iに置き換わっている。
所感
指標やユーザー行動をシンプルに抽象化していて参考になる
有効性を検証するためにユーザースタディがあることによって説得力があった
評価系の研究は、前提知識がないとなにが新規性なのか特にわかりにくい