MMLU
大規模マルチタスク言語理解(Massive Multi-task Language Understanding)の略
数学・物理学・歴史・法律・医学・倫理など、57科目の組み合わせで知識や問題解決能力を測るテスト
高校や大学レベルの問題を含む4択形式
MMLUを解かせることで、人間の知能と比較することができる
平均的な人間の評価者は34.5%で、専門家集団の平均は89.8%と推定されている
https://scrapbox.io/files/657b9dee0c964600249c8b3a.png
https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
GPT-4 (Few-Shot)は、86.5%
Gemini Ultraは、90.6%を叩き出した。専門家を超えたと言っている。
https://scrapbox.io/files/657b9f48721c580024012c38.png
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
MMMUというものもできた。