LLMベンチマーク
数学,科学,推論
HellaSwag
MMLU
GSM8K
MATH
AMC
BigBench
DROP
コーディング
HumanEval
Natural2Code
マルチリンガル
WMT19
WMT23
NTREX-128
MGSM
人手で評価
Chatbot Arena
日本語LLMベンチマーク
https://note.com/npaka/n/ndec10f78fe2f?sub_rt=share_h#dfd5520d-b88d-448d-b13b-cbb7100e11fd
LLM のベンチマーク まとめ|npaka