GPT-4oの性能をChainForgeで検証した結果
ChainForgeを使って、GPT-4oの性能検証を簡易的に行う。
比較対象は、
GPT-3.5-Turbo (20224-0125)
GPT-4 Turbo (2024-04-09)
Claude3 Opus
結論
どの評価タスクも、GPT-4o ≧ GPT-4 Turboであった。
これで2倍高速、2倍安いなんて信じられない。
推論タスクや一般タスクは、GPT-4o > Claude3 Opusであった。
翻訳や要約などのタスクは、僅差ではあるが、Claude3 Opus > GPT-4oであった。
推論タスク
以下の複合推論データセットを使用
https://github.com/hiroyaiizuka/japansese-reasoning-datasets
結果
https://scrapbox.io/files/664973ba92e2e3001d755932.png
GPT-4o > Claude3 Opus >GPT-4 Turbo
翻訳タスク
MicrosoftのGEMBAを使用
使用したcforgeファイル: translate-udemy.cforge
結果
https://scrapbox.io/files/6649781892e2e3001d7573ac.png
Claude3 Opus(95) > GPT-4o(93) > GPT-4 Turbo(92)
要約タスク
OpenAI推奨のG-Evalを使用
使用したcforgeファイル: summary-udemy-result.cforge
結果
https://scrapbox.io/files/66497ae0097f7f001c33cc29.png
Claude3 Opus > GPT-4o > GPT-4 Turbo
Coherence(論理的な流れと構成)が、Opusだけ最高評価の5点であった。
https://scrapbox.io/files/66497b533cd2dd001cd0f1ab.png
一般タスク
TruthfulQAで検証
使用したcforgeファイル: system-udemy.cforge
結果
https://scrapbox.io/files/6649754f2739a3001d6e5385.png
Claude3 Opus = GPT-4o > GPT-4 Turbo
関連
GPT-4oの性能評価の結果