Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge
会議、発表者のタグ
Motivation 選んだ理由
特定タスクに特化した小規模モデルを作ることを考えた時に、instruction 用データの作成は以前として高い壁になっている
LLMでなんとかしてほしい
実際のところLLMで扱うタスクには、手探り状態のタスクがままある。仕様が決まっていなかったり、どのような答えが望ましいか決まったものがなかったりする。
これもLLMでなんとかしてほしい
Summary どんなもの?
LLM の学習 (Instruction tuning) にLLMの自己報酬を導入する話
既存の報酬メカニズムは、LLMの応答をLLMで評価するところに焦点をあてていたため、容易にハックされ過学習を引き起こしてしまっていた。
提案手法では、報酬モデルに対するメタな報酬モデルを導入することで、報酬モデル自体を継続的に改善することでその問題を解決する。
Llama-3-8B-Instruct をベースにした実験
訓練対象 (actor)、評価モデル (judge)、メタ評価モデル (meta-judge) がすべてLlama-3-8B-Instruct
AlpacaEval 2: データセットでの回答をGPT-4-TURBO (gpt-4-1106-preview)と比較した勝率、判定もGPT-4-TURBO
22.9% から 39.4% に改善
(GPT-4-0313が35.3%, Opus 40.5%, GPT-4o mini: 50.7%, GPT-4o: 57.5%)
LC Win rate (長さを考慮する)とWin rate (長さを考慮しない)がある
Arena-Hard: Chat bot arena と相関が最も高い自動評価。GPT-4-Turboで評価
スコアが 20.6 から 29.1に改善
phi-3-small-8k-instruct 29.8
gpt-4-0314 50.0% (ベースライン)
gpt-4o-2024-08-06 77.9
gpt-4o-mini 74.9
Contribution 先行研究と比べてどこがすごい?
メタ評価の導入で、実用性のある自己報酬モデルを提案した
報酬モデルの長さバイアス(詳細な回答を高く評価しがち)への対処のため、回答長を考慮した評価を導入
Method 技術や手法のキモはどこ?
https://gyazo.com/145bdfcd04f14dda0e9f5a1545cdcd7c
Actor Data Creation
Actor モデルがプロンプトに対して、K個の回答を生成
回答を judge モデルが判定し、5点満点のスコアをつける
回答からベストy_c とワースト y_rの組を選好データとして収集
最高点の回答から、スコアが (1-ρ)S_min + ρS_max から S_max の範囲の中で、最も短いものをベストの回答とする。
y_r は同じ範囲から最も長い回答を選択する
Judge Data Creation
各回答について Nの評価を生成し、スコアの分散が大きい回答を選択
評価の組を比較するmeta-judge により、評価間の勝敗表を作成
Elo レートを計算し、最大・最小レートの評価を選好データとして収集
ここでも長い評価を好む傾向があったため、長さの上限を設定し、一定以上長い評価は破棄している
Preference Optimization
上記のデータを使って、DPO によりモデルを学習、次ステップで使うモデルとする
Experiments どうやって有効だと検証した?
実験設定
Seed となるモデルは Llama-3-8B-Instruct、その他の実験設定は先行研究に習う
メタ報酬学習を行う前に、Open Assistant の Instruction Tuning 用データで学習
このモデルを以降 SFT と呼ぶ
メタ報酬学習は4イタレーションまで
*まだ繰り返す余地はありそうだが、付録までみると4イタレーションで悪化する例があるためか
AlpacaEval 2 での評価
https://gyazo.com/2728356845f93fe83154138433fee22f
4周目で、メタ報酬の有無で大きく差がついている
https://gyazo.com/0bb2fd92a7de81c52c6514e9d73c6622
ほぼすべてのプロンプトカテゴリで改善が見られている
Arena Hard での評価
https://gyazo.com/e89961393e8f3740973f3ec861ad5f32
Arena hard でもおおよそ近い結果がでている
複雑かつ難しい指示に対してパフォーマンスが向上している
報酬モデルの評価
https://gyazo.com/45a9552f78f2d1ef62a50608d8e3a253
GPT-4 (gpt-4-1106-preview) による判定と比較している
GPT-4 Chosen Pairs (GPT-4 をつかって選好データを作成、提案モデルと判定結果を比較)
Self-Chosen Pairs (提案モデルの選んだ選択選好データで、GPT-4 と判定結果を比較)
GPT-4 Chosen Pairs
メタ報酬ありでは反復するにつれて、一定向上が見られる
報酬なしではAgreement は下がっている
Self-Chosen では提案手法とYuanらの手法で大差ない
おそらく、報酬モデルに対する過学習の結果、評価しやすい所だけ選ばれてしまっている?
https://gyazo.com/23110a9050608a917c573e182517eacd
反復により、メタ報酬のスコアが高いところに偏っていくことが観測されている
meta-judge が高いスコアを好む傾向がある
Discussion 議論はある?
人の直接のフィードバックや、より大きなモデルの蒸留なしに、モデルを改善できている
Llama-3-8B-Instruct は小さいので、もっと大きなモデル・強いモデルでどうなるかは気になる所
モチベーションで書いたように、人がボトルネックになる状況はあるので、人による評価が難しい局面で利用できるか?
スーパーアライメント(人を超えるアラインメント)とも関連するが、限界はあれど多少できる可能性はありそう
実用上は meta-judge に強いモデルを使っても良さそうな気がする