MT-bench

LLM-as-a-judge を用いたLLMの評価手法

Arxiv

Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

https://arxiv.org/abs/2306.05685

npakaさんのブログ

https://note.com/npaka/n/na290f1b1c55e

日本語版のプロンプト例

https://github.com/Stability-AI/FastChat/blob/jp-stable/fastchat/llm_judge/data/judge_ja_prompts.jsonl

code: prompt.json

{

"system_prompt": "あなたは有益な助手です。",

"prompt_template": "指示\n公平な判断者として行動し、以下に表示されるユーザーの質問に対するAIアシスタントの応答の品質を評価してください。あなたの評価は、応答の有用性、関連性、正確性、深さ、創造性、詳細度などの要素を考慮すべきです。AIアシスタントの返答の言語は、ユーザーが使用している言語と一致しているべきで、そうでない場合は減点されるべきです。評価は短い説明から始めてください。できるだけ客観的であること。説明を提供した後、このフォーマットに厳密に従って1から10までのスケールで応答を評価する必要があります：\"評価\"、例えば：\"評価：5\"。\n\n質問\n{question}\n\nアシスタントの回答の開始\n{answer}\nアシスタントの回答の終了"

}

データセット

https://github.com/Stability-AI/FastChat/blob/jp-stable/fastchat/llm_judge/data/japanese_mt_bench/question_full.jsonl

要約: https://note.com/yutohub/n/n56755bb0e3f8