alpaca_eval
「AlpacaEval」は、高速で安価で信頼性の高いLLM ベースの自動評価ベンチマーク。
2つの言語モデルが生成した回答を用意してあげて、GPAT-4などの言語モデルを使って、自動で評価させる方法
win rateの計算はこちら
1. 予測を前処理します。
2. 引き分けの数を計算します。
3. 予測を浮動小数点数に変換し、0.0を1.5に置き換えます。
4. 予測が有効な選好(preference)であるかどうかを検証します。
5. 有効な選好の予測から1を引きます。
6. 勝利の数(予測が0.5より大きい)と基本勝利の数(予測が0.5より小さい)を計算します。
7. 予測の合計数を計算します。
8. win_rateを計算します。これは、予測の平均を100倍したものです。
AlpacaEvalは、人間の注釈と高い一致率を示し、AlpacaEval上のリーダーボードランキングは、人間の注釈に基づくリーダーボードランキングと高い相関を示している。
評価法
一般的なユーザーの指示に従うモデルの能力をテストする 「AlpacaFarm」の評価セットを使って評価対象のLLMの応答を生成し、「GPT-4」または「Claude」の自動アノテーターによって「davinci003」の応答と比較し、その結果がリーダーボードでの勝率になる。
制限事項
「AlpacaEval」は、モデルの能力を比較するのに役立つが、モデルの能力の包括的な評価やゴールドスタンダードの評価ではない。
1つ目の理由として、自動アノテーターの勝率は長さと相関していることがある。
人間による注釈にもこの偏りは見られますが、より詳細な回答が下流のタスクでの有用性を高めるかどうかは不明です。
2つ目の理由として、「AlpacaFarm」の評価セットは多様だが、主に単純な指示で構成されている。
ツールの使用などのために、より複雑な新しい評価セットを提供されるべき。そして、「AlpacaEval」はモデルの安全性も評価しない。
詳細解説
命令に従うモデル(例えば、ChatGPT)の評価には通常、人間との対話が必要です。これは時間がかかり、費用が高く、再現が困難です。AlpacaEvalはLLM(大規模言語モデル)に基づく自動評価で、速く、安価で、再現可能であり、2万件の人間のアノテーションに対して検証済みです。モデル開発に特に有用です。以前の自動評価パイプラインよりも改善しましたが、より長い出力を好む傾向など、根本的な限界がまだあります。AlpacaEvalは以下を提供します:
リーダーボード:
AlpacaEval評価セットでの一般的なモデルのリーダーボード。注意:自動評価者(例えばGPT4)は、出力が長いモデルや評価者の基盤となるモデル(例えばGPT4)でファインチューニングされたモデルを好むバイアスがある可能性があります。
自動評価者:
人間との高い一致性を持つ自動評価者(2万件のアノテーションで検証済み)。モデルを評価する際には、強力なLLM(例えばGPT 4やClaudeやChatGPT)がそのモデルの出力を参照モデルの出力よりも好む回数の割合を測定します。当社の評価者は、デフォルトでキャッシングと出力のランダム化を有効にしています。
自動評価者の構築ツールキット:
キャッシング、バッチ処理、マルチアノテーターなどを備えた高度な自動評価者を構築するためのシンプルなインターフェースと、それらの分析(品質、価格、速度、統計的パワー、バイアス、バリアンスなど)。
人間の評価データ:
与えられたモデルと参照モデル間の2万件の人間の嗜好。
そのうちの2,500件はクロスアノテーション(4人の人間が同じ650例を注釈)です。
AlpacaEvalデータセット:
AlpacaFarmの評価セットの簡略化版で、「指示」と「入力」を1つのフィールドに統合し、参照出力を長くしています。
AlpacaEvalをいつ使用するか?
当社の自動評価者は、単純な命令に従うタスクの人間による評価の速くて安価な代替品です。たとえば、モデル開発中に多くの評価を迅速に実行する必要がある場合に便利です。
AlpacaEvalをいつ使用しないか?
他の自動評価者と同様に、AlpacaEvalは高いリスクを伴う意思決定、例えばモデルのリリースを決定する際には、人間の評価に取って代わるべきではありません。特に、AlpacaEvalは以下の事実に限られています:
(1)評価セットの指示がLLMの高度な使用を代表していない可能性がある
(2)事実性よりもスタイルを好むなどのバイアスがある可能性がある
(3)モデルが引き起こすリスクを測定しない。
日本語記事