MT-bench
LLM-as-a-judge を用いたLLMの評価手法
Arxiv
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
https://arxiv.org/abs/2306.05685
npakaさんのブログ
https://note.com/npaka/n/na290f1b1c55e
日本語版のプロンプト例
https://github.com/Stability-AI/FastChat/blob/jp-stable/fastchat/llm_judge/data/judge_ja_prompts.jsonl
code: prompt.json
{
"system_prompt": "あなたは有益な助手です。",
"prompt_template": "指示\n公平な判断者として行動し、以下に表示されるユーザーの質問に対するAIアシスタントの応答の品質を評価してください。あなたの評価は、応答の有用性、関連性、正確性、深さ、創造性、詳細度などの要素を考慮すべきです。AIアシスタントの返答の言語は、ユーザーが使用している言語と一致しているべきで、そうでない場合は減点されるべきです。評価は短い説明から始めてください。できるだけ客観的であること。説明を提供した後、このフォーマットに厳密に従って1から10までのスケールで応答を評価する必要があります:\"評価\"、例えば:\"評価:5\"。\n\n質問\n{question}\n\nアシスタントの回答の開始\n{answer}\nアシスタントの回答の終了"
}
データセット
https://github.com/Stability-AI/FastChat/blob/jp-stable/fastchat/llm_judge/data/japanese_mt_bench/question_full.jsonl
要約: https://note.com/yutohub/n/n56755bb0e3f8