MMLU - evergreens

MMLU

大規模マルチタスク言語理解(Massive Multi-task Language Understanding)の略

数学・物理学・歴史・法律・医学・倫理など、57科目の組み合わせで知識や問題解決能力を測るテスト

高校や大学レベルの問題を含む4択形式

MMLUを解かせることで、人間の知能と比較することができる

平均的な人間の評価者は34.5%で、専門家集団の平均は89.8%と推定されている

https://scrapbox.io/files/657b9dee0c964600249c8b3a.png

GPT-4 (Few-Shot)は、86.5%

Gemini Ultraは、90.6%を叩き出した。専門家を超えたと言っている。

https://scrapbox.io/files/657b9f48721c580024012c38.png

MMMUというものもできた。