MMMU
https://scrapbox.io/files/65826f97f134440023e971c6.png
Massive Multi-discipline Multimodal Understanding
AGIを見据えて、専門家レベルの問題を集めたベンチマーク
専門家レベルの推論と深い知識を必要とする問題を含み、テキストと画像を組み合わせた問題解決能力も試される。
詳細
このベンチマークは、大学レベルのマルチモーダル(複数の形式を含む)理解と推論を評価するために設計されており、大規模な言語モデルやマルチモーダルモデルの能力をテストするために使われる。
美術・デザイン、ビジネス、科学、医療・健康、人文・社会科学、技術・工学の6つの分野をカバーし、約11,500の多様な質問が含まれる。
これらの質問は大学の試験や教科書から取られたもので、チャート、地図、楽譜など様々なタイプの画像も含まれる。
大学の主要な専攻を参考にして選択された30の科目から成り立っており、データ収集は50人以上の大学生(共著者を含む)によって行われた。
データ収集プロセスには2段階のデータクリーニングが含まれており、質問の質と難易度を保証するために、非常に簡単な質問の約10%が削除された。
特徴
大学レベルの問題が11.5Kも含まれる
多分野の問題をテキスト+画像で出題する
問題例:
・誤ったインターバルを含む楽譜はどれか
・スクリーニング用のMRI画像から病因を答えよ
・この風刺画でアメリカはどう描かれているか
開発の背景
専門家レベルのLLMが登場し始めた
既存のベンチマークはレベルが不十分である
他分野のマルチモーダル問題が必要である
参考