LLMベンチマーク
数学,科学,推論
HellaSwag
MMLU
GSM8K
MATH
AMC
BigBench
DROP
コーディング
HumanEval
Natural2Code
マルチリンガル
WMT19
WMT23
NTREX-128
MGSM
人手で評価
Chatbot Arena
日本語LLMベンチマーク
https://note.com/npaka/n/ndec10f78fe2f?sub_rt=share_h#dfd5520d-b88d-448d-b13b-cbb7100e11fdLLM のベンチマーク まとめ|npaka
Jason Wei(@_jasonwei)
Made this plot for an upcoming talk---crazy how quickly benchmarks get saturated these days. Looking forward to seeing how things play out for Humanity’s Last Exam!
https://gyazo.com/ebd19348e19ca8476324f549567c0386