知識集約的タスクをどう評価するか?
海外ベンチマーク
難易度Easy-Medium
Big-bench
MMLU
、
JMMLU
難易度Hard
Big-Bench-Hard
MMMU
StrategyQA
:
NLU
+ Reasoning
日本語ベンチマーク
日本語におけるLLMの評価指標