日本語におけるLLMの評価指標
Closed-Ended
答えが厳密に決まっている問題
GLUE ベンチマークの日本語版として構築されたベンチマーク。
MARC-ja(文章分類)JCoLA, JSTS(類似性), JNLI(含意関係), JSQuAD(機械読解), JCommonsenseQA(常識推論) の 6 つのタスクを含む(JCoLA は東大大関研により作成)。 https://scrapbox.io/files/65cb6e7ef270db00245d9bc1.png
複数のデータセットを横断し、JGLUEより広範なタスクを扱う JSQuAD(機械読解), 数学推論, JCommonsenseQA(常識推論), JNLI(含意関係), JSTS(類似性) など
生成結果をExact Match、文字列ベースのF値/F1スコアなどで自動評価する Stability AI による EleutherAI/lm-evaluation-harness のフォーク。
JGLUEを含む様々な日本語タスクに対するモデルの few-shot 評価をまとめている。 Open-Ended
答えが決まってい問題
ELYZA-tasks-100
ELYZA社が人手で作成した多様で複雑なタスクを含むデータセット。
人間による評価を行うことが可能な件数(100件)に絞っている。
rakuda
日本の歴史、社会、政治、地理に関する日本語での40の質問で構成される。
ランキングのAIアシスタントに40の自由形式の質問)に答えてもらう。そして、GPT-4にこれらの答えのペアを見せ、どちらのモデルがより良い答えを出したかを選択させる。GPT-4の選好に基づき、ベイズ法で各モデルの根本的なBradley-Terryの強さを推定する。Bradley-Terryの強さは、Eloスコアの最適版。
https://scrapbox.io/files/65bcdf20486f99002437fa16.png
教師データはなく、質問に対する回答を評価対象のモデル間で相互に比較することで評価する
Japanese MT-Bench
マルチターン会話能力を問う MT-bench の日本語版。
Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities の 8 つのカテゴリから 10 問ずつ、計 80 問が収録されている。なお、日本語版作成の際には、日本の文化に合うように質問内容に一部修正が加えられている。
GPT-4 による 10 段階の絶対評価を行うスクリプトも含まれている
評価データ
question.jsonl : 質問ファイル (80問)
例(codingのタスク)
"ディレクトリ内の全てのテキストファイルを読み込み、出現回数が最も多い上位5単語を返すPythonプログラムを開発してください。"
"それを並列化(parallelize)することは可能ですか?"
各タスク
writing
(テキスト生成) : 10問、2ターン
roleplay
(ロールプレイ) : 10問、2ターン
reasoning
(推論) : 10問、2ターン、参照回答あり
math
(計算問題) : 10問、2ターン、参照回答あり
coding
(コード生成) : 10問、2ターン、参照回答あり
extraction
(情報抽出) : 10問、2ターン
stem
(知識 I) : 10問、2ターン
humanities
(知識 II) : 10問、2ターン
gpt-4.jsonl : 参照回答ファイル (80問)
参考資料
以下の資料に、大変わかりやすくまとまっている
https://scrapbox.io/files/65a6737f17eac80024b4f3de.png
JGLUEの構築そして 日本語LLM評価のこれから
https://scrapbox.io/files/65bd708b3fbc5300251d3265.png