Zheng+'23 Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
TL; DR
LLM-based chat assistants (chatbots) の評価に注目
LLMによってモデルの出力を評価する LLM-as-a-judge についてのシステマティックな調査を行った
高品質な人間の選好データセットである MT-bench と Chatbot Arena を作成し公開した
Chatbot Arena Leaderboard
Motivation
伝統的なLLMベンチマーク(例: MMLU)によるモデルの評価と人間の選好が常に一致するとは限らない
チャットボットの有用性に対するユーザーの認識と伝統的なLLMベンチマークで採用されている基準の間の不一致を示唆
伝統的なLLMベンチマークはタスクの種類が限定的(例: multi-choice knowledge)で、open-endedなタスクにおける人間の選好との一致を評価できない
例: マルチターンの会話でユーザーの指示に正確に従う能力
LLMの人間の選好との整合性を評価するため、ロバストでスケーラブルな自動化された手法が必要
MT-Bench and Chatbot Arena
伝統的なLLMベンチマーク
Core-knowledge benchmarks
zero-shot or few-shot でLLMのコア知識を評価する
例: MMLU
Instruction-following benchmarks
instruction fine-tuning後のモデルの評価に使用される
ややオープンエンドな質問とより多様なタスクを扱っている
例: Flan
Conversational benchmarks
本論文のモチベーションに最も近い
質問の多様性と複雑さが不十分
例: CoQA
提案データセット
人間の選好との一致を評価し、同時にLLMのコア能力も評価する
MT-Bench
https://gyazo.com/e74103682b66a37be843a56cb7aa992b
80の高品質なマルチターン質問で構成される
マルチターンの会話と指示に従う能力をテスト
共通カテゴリー(ライティング、ロールプレイ、抽出、推論、数学、コーディング、知識I(STEM)、知識II(人文・社会科学)内に10種類のマルチターン質問
Chatbot Arena
https://gyazo.com/987fbe0c44f8c80d312b26a8b216d69c
匿名のモデル間でバトルを行うクラウドソーシングベンチマークプラットフォーム
ユーザーが2つの匿名モデルに同じ質問を投げかけ、どちらのモデルが好ましい回答を提供したかについてユーザーが投票
Chatbot Arenaを1か月間運用した後、約30Kの投票が集まった
事前定義された質問を使用しないため、ユーザーの多様な関心に基づいて、制限のない幅広い使用例と投票を集めることができる
LLM as a Judge
人手による評価は非常にコストがかかるため自動で評価を行いたいが、open-ended かつリファレンスもない場合自動評価は非常に難しい
LLMを使用した評価を検討したい
メリット
スケールする
説明を付与することもできる
検証するLLM-as-a-Judgeの類型
Pairwise comparison
2つの回答に対し、どちらが優れているか(または引き分けか)を判別する
スケールしないというデメリットがある
https://gyazo.com/0427882318595dd8bb6ffa27900dbbcb
Single answer grading
単一の回答に対しスコアを割り当てる
モデルが変わるとスコアが変動してしまい不安定
微妙な回答の差異に鈍感
https://gyazo.com/2045ddc6abe70c50b4e59a5333170933
Reference-guided grading
利用可能な場合参照回答を使ってスコアを割り当てる
https://gyazo.com/a31b3dc58b0f4fa7d9055f4ed322c675
Limitations of LLM-as-a-Judge
LLM as a Judgeにが存在する様々なバイアスと制限
Position bias
特定の位置を好むバイアス
※ 人間の意思決定や他の機械学習ドメインでも見られる
例
https://gyazo.com/278d67064c78d004a8118caabc2acb0f
MT-Benchにおいて同じモデルで2回似た回答を生成させてバイアスを評価した結果
https://gyazo.com/a2559c12e712c11a0fe1911dfbb149e4
rename -> assistantの名前をAssistant Aから変える(バイアスが位置にあるのか名前にあるのか切り分けたい)
Consistency: 順番をスワップしても結果が変わらなかった割合
Biased toward first: 前者の回答が好まれた割合
どのモデルも非常に強いPosition biasを持っている
Claude-v1 はAssistant Aを好むというバイアスも持つ
Verbosity bias
冗長な回答を好むバイアス
MT-Benchにおける repetitive list 攻撃による調査
オリジナルの回答に含まれる文をGPT-4を利用して言い換えさせ、不必要に冗長な回答を合成する
内容は変わらないはずなので、冗長化した方を高評価した場合は攻撃が成功したとみなす
例
https://gyazo.com/0ba6ea1fe43eca9e2705322c5a1ebcba
結果
https://gyazo.com/0dc3f9fb192603265ca205061782636d
GPT-4は比較的優れている
Self-enhancement bias
自身が生成した回答を好むバイアス
Fig3 (b)
GPT-4は自身を10%高い勝率で好む
Claude-v1は自身を25%高い勝率で好む
GPT-3.5は自身を好むことはない
Limited capability in grading math and reasoning questions
簡単な数学の問題の採点にも限界がある
例
https://gyazo.com/6c0d29bd3f8bdbd9cd23d48052260e69
個別に問われた場合には問題を解くことができるにもかかわらず、contextに惑わされ最終的に誤った判断を下す
https://gyazo.com/6d035e4f8bfccff26e55c7ebf5f3ee59
Addressing limitations
バイアスと制限への対処
Swapping positions
Position biasへの対処
2つの回答の順序を入れ替えて2回推論し、両方の順序で回答が好まれたときのみ勝利とする
入れ替えた後の結果が一貫性がない場合、引き分け
Few-shot judge
few-shot(「Aが良い」、「Bが良い」、「引き分け」の3つのケースをカバー)にすることでConsistencyが改善
https://gyazo.com/ac18fa97699f50f2155220cfe8bd6999
Chain-of-thought and reference-guided judge
Chain-of-thought promptingを導入
https://gyazo.com/57ba97aa7ed076a88374a8b8ae010ac7
しかし、contextに渡された回答に惑わされ全く同じ間違いをしてしまうことがある
https://gyazo.com/262e0bb84e44ac2c2d6d5a95d1b1dadb
reference-guided method: 最初にモデル自身にreference回答を生成させ、その後referenceを参考に判断する
failure rateが大幅に改善 (70% -> 15%)
https://gyazo.com/d88770453d9ff5cbfe6faa5ed62b44a7
Fine-tuning a judge model
Vicuna-13BをChatbot Arenaの選好データ(22K single-turn votes)でfine-tune
Consistencyが大幅に改善し、GPT-4に迫る結果
https://gyazo.com/315cbac930750d6ce23d904d9a76dac3
Agreement Evaluation
MT-bench と Chatbot Arena dataset における異なるLLM judgeと人間の判断のagreementを評価
Setup
MT-bench
6つのモデルによる回答を生成して評価
GPT-4, GPT-3.5, Claude-V1, Vicuna-13B, Alpaca-13B, LLaMA-13B
LLM judges
Pairwise comparison, Single answer grading
expert-level human labelers
大部分は大学院生(一般的なクラウドワーカーよりも高スキル)
58人のアノテーターから3000件のアノテーションを収集
Chatbot Arena
以下のモデルの回答を含む3000件を抽出
GPT-4, GPT-3.5, Claude, Vicuna-7B/13B, Koala-13B, Alpaca-13B, LLaMA- 13B, Dolly-12B
LLM judges
Pairwise comparison, Single answer grading
crowd judges
2114 unique IPs
評価尺度
agreementを無作為に選ばれた質問に対して合意する確率として定義する
例: 3人の人間がそれぞれ「A」、「A」、「B」と投票した場合のagreement=1/3
(A, A), (A, B), (A, B) の3通りが考えられるため
Results
MT-bench
https://gyazo.com/ae56c61aaf05f37625de7abcca9d2b10
GPT-4 は expert-level human labelers と非常に高い agreement を示している
引き分けなしの設定(S2)では expert-level human labeler s同士の agreement よりも高い
GPT-4の判断は大多数の人間と一貫している
データ収集の際、人間の判断がGPT-4と異なっていた場合に人間にGPT-4の判断を提示すると75%のケースでGPT-4の判断を合理的と考え、34%のケースで自分たちの選択を変更する意思を示した
Chatbot Arena
https://gyazo.com/a2e8c34dae0e3625ed3e3a17df7e803a
MT-benchと同様の傾向
両データセットとも、 GPT-4による Single answer grading は、GPT-4による Pairwise comparison および人間の判断と非常によく一致
よりスケーラブルなので嬉しい
モデルペア間の勝率の差と(GPT-4, 人間)の agreement の関係
https://gyazo.com/8ed7b835d2e63021cd1b4f0deefa9076
より大きな性能差がある場合、より(GPT-4, 人間)の判断は一致する
Win rates under different judges
https://gyazo.com/bed6b6e4e92755c3c78704f95d3cdc93
https://gyazo.com/a65adb405db882ddf55b8a31b95b6eb6
異なるモデル、人間による種々のモデルの勝率
人間とLLMは非常によく一致している
Self-enhancement biasも見られる
カテゴリ別 win rate
https://gyazo.com/13cd77c68dc34477d022977d11f8d9ed
GPT-4が他のモデルよりも顕著に優れている
Human Preference Benchmark and Standardized Benchmark
MT-benchやChatbot Arenaは人間の好みのベンチマークデータセット
伝統的なLLMベンチマークとは異なる観点に注目しており、両方の種類のベンチマークを用いてモデルを総合的に評価することが推奨される
LLaMAから派生したいくつかのモデルバリアントを評価した例
https://gyazo.com/8d0fadfbeda989d38892569192f08d5a
ShareGPT(高品質なdialog datasets)でのファインチューニングは、MMLUでのモデル性能を一貫して改善する
データのサイズに応じて改善が拡大する
https://gyazo.com/ea4e83e35685e91be5726f2ee9abe2a2
小規模な高品質のdialog datasetsは、GPT-4(またはおおよそ人間)によって好まれるスタイルをモデルに迅速に教えることができる
4.8Mトークンでのみ訓練されたVicuna-7B(slected)のように、MMLUを大幅に改善することはできない
単一のベンチマークではモデル品質を決定できず、総合的な評価が必要であることを意味している
Discussion
Limitations
安全性の観点は評価できていない
有用性の中には、正確性、関連性、創造性のような複数の次元が存在するが区別できていない
LLM-as-a-judgeのバイアス軽減のより発展的な方法
Data collection and release
データ収集の詳細はAppendix C
Societal impacts
チャットボットの品質とユーザー体験を向上させるのに役立つ
チャットアシスタントは特定の人間のタスクを置き換える可能性がある
Future directions
より広いカテゴリセットでのベンチマーキング
オープンソースLLM as a judge
オープンモデルの数学・推論能力の向上