MMLU
大規模マルチタスク言語理解(Massive Multi-task Language Understanding)の略
数学・物理学・歴史・法律・医学・倫理など、57科目の組み合わせで知識や問題解決能力を測るテスト
高校や大学レベルの問題を含む4択形式
MMLUを解かせることで、人間の知能と比較することができる
平均的な人間の評価者は34.5%で、専門家集団の平均は89.8%と推定されている
https://scrapbox.io/files/657b9dee0c964600249c8b3a.png
Gemini Ultraは、90.6%を叩き出した。専門家を超えたと言っている。 https://scrapbox.io/files/657b9f48721c580024012c38.png