Comparing the Sensitivity of Information Retrieval Metrics

#SIGIR2010 #SIGIR #koiizuka

https://gyazo.com/554cee86b58230fdec744478701c6014

https://www.microsoft.com/en-us/research/wp-content/uploads/2010/07/fp146-radlinski.pdf

選んだ理由

インターリービングの出力がどのような指標と相関するか興味があった

インターリービングは評価の効率が高いと言われている

一方で、A/Bテストで使われるような指標と相関しないと実用上嬉しくないので

論文を理解するための補足知識

A/Bテスト

テスト対象A,Bがあったときにユーザー群A,Bを用意してそれぞれのユーザー群にテスト対象を割り当てて評価する

インターリービング

テスト対象のランキングA,Bがあったときにランキングを一つに混ぜ、混ぜたランキングをユーザーに提示し評価する

A/Bテストよりも効率が良いとされている

代表的な手法の一つがTeam-Draft Interleaving

https://gyazo.com/ea2e5a7261b2cfd251a0b8b0464d0d35

↑ 各ランキングのアイテムを上から順に重複しないようにランダムに割り当てていく

この際、最終的には各チームに均等な数のアイテムが割り当てられるようにする

この論文はどんなもの？

ランキング指標の安定性を調査

5000queryあればぼちぼち安定

インターリービングとランキング指標(nDCG, MAP, Precision@k)のsensitivityを包括的に調査

インターリービングはnDCGと最も相関する

インターリービングの評価には50000impあれば十分

インターリービングのsensitivityを改善する知見を報告

先行研究と比べてどこがすごい？

細かさ

どのような性質をもつランキング間においてインターリービングは正確な評価が行えるかを評価

単にインターリービングは平均的に効率的である、にとどまっていない

実験の記述が丁寧で再現性が高そう

視点

異なるランキング指標を用いると異なる評価結果がインターリービングでは得られるのではないかという仮説

インターリービングの評価にはimpressionがどれほど必要なのか？という実用的な問い

技術や手法のキモはどこ？

実験設定の手堅さ

巨大ECサイトにおけるranker(ランキングを生成する関数)を5つ用いる

全12000クエリからクエリをランダムサンプル

rankerによって得られたtop10の文書を専門家がperfect-badに5段階評価

必要に応じてbinaryラベルに変換

指標

Precision@10, MAP@10, nDCG@10

ランキング指標(nDCG and MAP)の差に応じて実験設定を大きく分けて2つに分けた

Major

rankerA, B, C: 0.5%以上差が見られるranker

majorAB: rankerAとrankerBの比較を表す。他も同様

Minor

rankerD, E: 全体に対して0.2%未満の差が見られるranker

インターリービング

一部の実ユーザーに220000回表示

火曜から金曜日で2ヶ月間実施

各評価指標について、何クエリあれば評価の整合性が取れるか？

インターリービングの出力と専門家の出力は一致するか？

インターリービングでは何impあれば評価の整合性が取れるか？

インターリービングの報酬の設計がどのように評価の整合性に影響するか？

どうやって有効だと検証した？

以下は実験結果

各評価指標の安定性の評価

queryの数を増やしたときの整合性の結果

https://gyazo.com/6178e98742acc4536d7c6f5121653cae

nDCGが最も整合性がある

minorEは10000queryに到達しても整合性なし

MAPは徐々に整合性が増える結果

MAPは適合度1-5をバイナリ変換していることに起因している？

実際適度度を1-3に限定したらnDCGとの差は小さくなった

クエリの数が小さいと真逆の評価結果を返却することがあるの(minorD)で、クエリの数が少ない場合、注意が必要

MAPのminorEに対する整合性の詳細

https://gyazo.com/e91a377e78ad5c716f090d638c5328d1

ゆるやかにbetterの割合が増えていっている。結果として評価の整合性もゆるやかに上がっていった

小さいクエリ数のところでworse(significant)になっているものもクエリ数を増やすと改善されている

各評価指標の評価値が等しい割合

https://gyazo.com/f22f00358384b5732a4fac65ea80b10f

nDCGはtieが少ないのが評価の整合性の結果をもたらしている

インターリービングのsensisivityの評価

impressionを増やしていったときの結果

https://gyazo.com/8a7c8122cccfbdae1ce5605edb1c0250

傾向としては、各評価指標の安定性の評価の結果と同様

majorほど早く整合性が取れ、minorほど遅い

一方で、インターリービングの場合は1000impだけで60-80%の整合性がとれている

50000impあれば、5000queryと同等分の結果が得られている

インターリービングと評価指標の相関

https://gyazo.com/a76d0e83c2f09ce3aeb49f6557db4e84

横軸：インターリービングの差

縦軸：評価指標の差

nDCGが最も相関しているようにみえる

https://gyazo.com/934576881a087bff4c44eeba37beb61e

たしかにnDCGが最も相関している

インターリービングの報酬の違いによる影響

クリックされたときの報酬としてconst(もともとのやつ),log,1/rank,top,bottomによって重みづけた

https://gyazo.com/e2deffca0d7426ea9e764fcbd8db2dec

結果としては、log(rank)が最も整合性があった

その他の結果からも、低ランクのクリックに重み付けすることで整合性が高まると考えられる

なおこれらを組み合わせて評価の整合性を高めることも考えられる

所感

新しい手法の提案ではなく、既存の指標とインターリービング手法を丁寧に調査していた印象

Ground Truthの優劣の設計（majorA,B...）がnDCGとMAPに依存していて、これでいいのかは疑問が残る

実験の記述は丁寧だったが、具体的なデータセットとして何が使われていたか読み取れず

10年前とくらべると近年ではインターリービング手法もいろいろある（マルチリービングも出てる）ので、最近の手法を同様に調査したらどのような結果が得られるのか気になる