GPT-4oの性能評価の結果
https://openai.com/index/hello-gpt-4o/
テキスト評価
https://scrapbox.io/files/6642c6fd90cbfd001c26d8a0.png
推理力の向上
GPT-4oは、DROPをのぞく、MMLU、GPQA、MATH、HumanEval、MGSMでSoTAを記録した。
https://github.com/openai/simple-evals
自動音声認識の性能評価
https://scrapbox.io/files/6642cb68229dcd001c8dab2f.png
音声ASR性能
GPT-4oは、すべての言語、特に低リソース言語において、Whisper-v3に比べて音声認識性能を劇的に向上させた。
音声翻訳の性能評価
https://scrapbox.io/files/6642e6e83828cd001ddd66e2.png
音声翻訳性能
GPT-4oは、CoVoST-2という音声翻訳ベンチマークにおいて、新たな最先端を打ち立てた。
M3ExamのZero-Shotの結果
https://scrapbox.io/files/6642e7c231e21d001da331e7.png
M3Exam
GPT-4oはすべての言語においてGPT-4より優れた。
画像認識の評価
https://scrapbox.io/files/66430b4856e168001dc56a98.png
視覚理解テスト
GPT-4oは視覚認識ベンチマークで最先端の性能を達成。
Zero-Shotで、MMMU、MathVista、AI2D、ChartQA、DocVQA、ActivityNet、EgoSchema