LLMベンチマーク
数学
AIME(American Invitational Mathematics Examination) アメリカ合衆国の高校生向け数学競技
MATH(Mathematics Benchmark) 数学分野における計算力・論理的推論力・証明力を評価
多言語対応
MGSM(Multilingual Grade School Math) 多言語環境での算数的推論力を評価
知識
MMLU(Massive Multitask Language Understanding): 学術・専門分野を横断するマルチタスクな知識理解能力
GPQA(Graduate-Level Google-Proof Q&A Benchmark): Google検索では解けない専門知識を前提とした質問応答
推論
科学常識をもとにした多段推論能力を評価