MathVista
https://scrapbox.io/files/664330e8b97756001cd7ccb5.png
視覚的コンテキストにおける数学的推論能力を評価した激むずベンチマーク
多様な数学的タスクと視覚的タスクの課題を組み合わせるように設計されている。
6141の例題から構成され、数学に関する既存の28のマルチモーダルデータセットと、新たに作成された3つのデータセット(IQTest、FunctionQA、PaperQA)から作成されている。
https://scrapbox.io/files/6643316e060204001d866264.png
https://scrapbox.io/files/6643319a4c8c97001cd5ec21.png
これらのタスクをこなすには、きめ細かく深い視覚的理解と構成的推論が必要
結果
https://scrapbox.io/files/6674a6f0e6c44b001c0eb8db.png
GPT-4oが人間の平均スコアを上回った。(63.8 vs 60.3) https://scrapbox.io/files/664330aff18842001d17c2e2.png
参考