LLMを用いたLLMの自動評価について〜可能性と注意点〜

今回は、LLM に LLM の評価そのものを行わせるという新たなアプローチ（LLM-as-a-judge）についてご紹介します。

従来の自然言語処理タスクによる評価と異なり、LLM-as-a-judge では実際のテキスト生成に即した評価（≒より実運用に即した評価）が期待できます。一方で、実際に使うにあたってはいくつかの注意点も存在します。

従来型の自然言語処理タスク/評価指標を包括するベンチマークとして GLUE や MMLU、HELM、日本語では JGLUE や Stability-AI/lm-evaluation-harness が挙げられます。

質問に対する正答率（Accuracy）やF値（F1-Score）

BLEU、ROUGE、BERTScore

モデルが多様なテキストを出力できるようになった現在、これらの従来型の自動評価には限界があると考えられます。

LLM-as-a-judge に関するプレプリント論文として、以下のようなものがあります。

LMSYS という団体において Vicuna というオープンな LLM の開発や、LLM 比較プラットフォーム Chatbot Arena の運営なども手掛けており、注目を集めています。

AlpacaFarm

ここは積ん読

LLM-as-a-judge では、人手評価に匹敵するクオリティの評価を、お金や時間、労力をかけずに機械的に行えることが期待できます。

例えば、[Zheng et al., 2023] では、2つの LLM の出力を人間が比べた場合と GPT-4 が比べた場合の一致度（agreement）は 80% を超えており、これは2人の異なる人間が比べた場合の一致度と同水準だとしています。

QLoRa

Rakuda Benchmark

LLM-as-a-judge をやってみよう

rinnaとvicunaをGPT-4で比較

アシスタントAとアシスタントBの部分を入れ替えても同じ結論になるかをきちんと確認することが望ましい

TODO 手を動かしたい