GPT-4oの性能をChainForgeで検証した結果

ChainForgeを使って、GPT-4oの性能検証を簡易的に行う。

比較対象は、

GPT-4 Turbo (2024-04-09)

結論

どの評価タスクも、GPT-4o ≧ GPT-4 Turboであった。

これで2倍高速、2倍安いなんて信じられない。

推論タスクや一般タスクは、GPT-4o > Claude3 Opusであった。

翻訳や要約などのタスクは、僅差ではあるが、Claude3 Opus > GPT-4oであった。

推論タスク

以下の複合推論データセットを使用

結果

https://scrapbox.io/files/664973ba92e2e3001d755932.png

翻訳タスク

MicrosoftのGEMBAを使用

使用したcforgeファイル: translate-udemy.cforge

結果

https://scrapbox.io/files/6649781892e2e3001d7573ac.png

要約タスク

OpenAI推奨のG-Evalを使用

使用したcforgeファイル: summary-udemy-result.cforge

結果

https://scrapbox.io/files/66497ae0097f7f001c33cc29.png

Coherence(論理的な流れと構成)が、Opusだけ最高評価の5点であった。

https://scrapbox.io/files/66497b533cd2dd001cd0f1ab.png

一般タスク

使用したcforgeファイル: system-udemy.cforge

結果

https://scrapbox.io/files/6649754f2739a3001d6e5385.png