MathVista

https://scrapbox.io/files/664330e8b97756001cd7ccb5.png

視覚的コンテキストにおける数学的推論能力を評価した激むずベンチマーク

多様な数学的タスクと視覚的タスクの課題を組み合わせるように設計されている。

6141の例題から構成され、数学に関する既存の28のマルチモーダルデータセットと、新たに作成された3つのデータセット（IQTest、FunctionQA、PaperQA）から作成されている。

https://scrapbox.io/files/6643316e060204001d866264.png

https://scrapbox.io/files/6643319a4c8c97001cd5ec21.png

これらのタスクをこなすには、きめ細かく深い視覚的理解と構成的推論が必要

結果

2024年6月のClaude 3.5 Sonnetが最先端 (67.7)

https://scrapbox.io/files/6674a6f0e6c44b001c0eb8db.png

GPT-4oが人間の平均スコアを上回った。(63.8 vs 60.3)

https://scrapbox.io/files/664330aff18842001d17c2e2.png

参考