lm-evaluation-harness
https://github.com/EleutherAI/lm-evaluation-harness
eleutherAI
https://github.com/Stability-AI/lm-evaluation-harness
master
自己回帰言語モデルの少数ショット評価のためのフレームワーク
このプロジェクトは、生成言語モデルを多数の異なる評価タスクでテストするための統一されたフレームワークを提供します。
https://github.com/Stability-AI/lm-evaluation-harness/tree/jp-stable?s=09
日本版
https://gyazo.com/dc8aca7fe138dcc2c8e5d6ece42595b1
JCommonsenseQA
JNLI
MARC-ja
JSQuAD
japanese-gpt-neox-3.6b-instruction-sft
が1位
LLMベンチマーク