知識集約的タスクをどう評価するか?
海外ベンチマーク
難易度Easy-Medium
Big-bench
MMLU、JMMLU
難易度Hard
Big-Bench-Hard
MMMU
StrategyQA: NLU + Reasoning
日本語ベンチマーク
日本語におけるLLMの評価指標