LLMベンチマーク
数学
AIME(American Invitational Mathematics Examination)
アメリカ合衆国の高校生向け数学競技
MATH(Mathematics Benchmark)
数学分野における計算力・論理的推論力・証明力を評価
多言語対応
MGSM(Multilingual Grade School Math)
多言語環境での算数的推論力を評価
知識
MMLU(Massive Multitask Language Understanding):
学術・専門分野を横断するマルチタスクな知識理解能力
GPQA(Graduate-Level Google-Proof Q&A Benchmark):
Google検索では解けない専門知識を前提とした質問応答
推論
ARC-bench(AI2 Reasoning Challenge):
科学常識をもとにした多段推論能力を評価