Comparing the Sensitivity of Information Retrieval Metrics
https://gyazo.com/554cee86b58230fdec744478701c6014
選んだ理由
インターリービングの出力がどのような指標と相関するか興味があった
インターリービングは評価の効率が高いと言われている
一方で、A/Bテストで使われるような指標と相関しないと実用上嬉しくないので
論文を理解するための補足知識
A/Bテスト
テスト対象A,Bがあったときにユーザー群A,Bを用意してそれぞれのユーザー群にテスト対象を割り当てて評価する
インターリービング
テスト対象のランキングA,Bがあったときにランキングを一つに混ぜ、混ぜたランキングをユーザーに提示し評価する
A/Bテストよりも効率が良いとされている
代表的な手法の一つがTeam-Draft Interleaving
https://gyazo.com/ea2e5a7261b2cfd251a0b8b0464d0d35
↑ 各ランキングのアイテムを上から順に重複しないようにランダムに割り当てていく
この際、最終的には各チームに均等な数のアイテムが割り当てられるようにする
この論文はどんなもの?
ランキング指標の安定性を調査
5000queryあればぼちぼち安定
インターリービングとランキング指標(nDCG, MAP, Precision@k)のsensitivityを包括的に調査
インターリービングはnDCGと最も相関する
インターリービングの評価には50000impあれば十分
インターリービングのsensitivityを改善する知見を報告
先行研究と比べてどこがすごい?
細かさ
どのような性質をもつランキング間においてインターリービングは正確な評価が行えるかを評価
単にインターリービングは平均的に効率的である、にとどまっていない
実験の記述が丁寧で再現性が高そう
視点
異なるランキング指標を用いると異なる評価結果がインターリービングでは得られるのではないかという仮説
インターリービングの評価にはimpressionがどれほど必要なのか?という実用的な問い
技術や手法のキモはどこ?
実験設定の手堅さ
巨大ECサイトにおけるranker(ランキングを生成する関数)を5つ用いる
全12000クエリからクエリをランダムサンプル
rankerによって得られたtop10の文書を専門家がperfect-badに5段階評価
必要に応じてbinaryラベルに変換
指標
Precision@10, MAP@10, nDCG@10
ランキング指標(nDCG and MAP)の差に応じて実験設定を大きく分けて2つに分けた
Major
rankerA, B, C: 0.5%以上差が見られるranker
majorAB: rankerAとrankerBの比較を表す。他も同様
Minor
rankerD, E: 全体に対して0.2%未満の差が見られるranker
インターリービング
一部の実ユーザーに220000回表示
火曜から金曜日で2ヶ月間実施
RQ
各評価指標について、何クエリあれば評価の整合性が取れるか?
インターリービングの出力と専門家の出力は一致するか?
インターリービングでは何impあれば評価の整合性が取れるか?
インターリービングの報酬の設計がどのように評価の整合性に影響するか?
どうやって有効だと検証した?
以下は実験結果
各評価指標の安定性の評価
queryの数を増やしたときの整合性の結果
https://gyazo.com/6178e98742acc4536d7c6f5121653cae
nDCGが最も整合性がある
minorEは10000queryに到達しても整合性なし
MAPは徐々に整合性が増える結果
MAPは適合度1-5をバイナリ変換していることに起因している?
実際適度度を1-3に限定したらnDCGとの差は小さくなった
クエリの数が小さいと真逆の評価結果を返却することがあるの(minorD)で、クエリの数が少ない場合、注意が必要
MAPのminorEに対する整合性の詳細
https://gyazo.com/e91a377e78ad5c716f090d638c5328d1
ゆるやかにbetterの割合が増えていっている。結果として評価の整合性もゆるやかに上がっていった
小さいクエリ数のところでworse(significant)になっているものもクエリ数を増やすと改善されている
各評価指標の評価値が等しい割合
https://gyazo.com/f22f00358384b5732a4fac65ea80b10f
nDCGはtieが少ないのが評価の整合性の結果をもたらしている
インターリービングのsensisivityの評価
impressionを増やしていったときの結果
https://gyazo.com/8a7c8122cccfbdae1ce5605edb1c0250
傾向としては、各評価指標の安定性の評価の結果と同様
majorほど早く整合性が取れ、minorほど遅い
一方で、インターリービングの場合は1000impだけで60-80%の整合性がとれている
50000impあれば、5000queryと同等分の結果が得られている
インターリービングと評価指標の相関
https://gyazo.com/a76d0e83c2f09ce3aeb49f6557db4e84
横軸:インターリービングの差
縦軸:評価指標の差
nDCGが最も相関しているようにみえる
https://gyazo.com/934576881a087bff4c44eeba37beb61e
たしかにnDCGが最も相関している
インターリービングの報酬の違いによる影響
クリックされたときの報酬としてconst(もともとのやつ),log,1/rank,top,bottomによって重みづけた
https://gyazo.com/e2deffca0d7426ea9e764fcbd8db2dec
結果としては、log(rank)が最も整合性があった
その他の結果からも、低ランクのクリックに重み付けすることで整合性が高まると考えられる
なおこれらを組み合わせて評価の整合性を高めることも考えられる
所感
新しい手法の提案ではなく、既存の指標とインターリービング手法を丁寧に調査していた印象
Ground Truthの優劣の設計(majorA,B...)がnDCGとMAPに依存していて、これでいいのかは疑問が残る
実験の記述は丁寧だったが、具体的なデータセットとして何が使われていたか読み取れず
10年前とくらべると近年ではインターリービング手法もいろいろある(マルチリービングも出てる)ので、最近の手法を同様に調査したらどのような結果が得られるのか気になる