GPT-4oの性能をChainForgeで検証した結果
比較対象は、
結論
これで2倍高速、2倍安いなんて信じられない。
推論タスク
以下の複合推論データセットを使用
結果
https://scrapbox.io/files/664973ba92e2e3001d755932.png
翻訳タスク
結果
https://scrapbox.io/files/6649781892e2e3001d7573ac.png
要約タスク
結果
https://scrapbox.io/files/66497ae0097f7f001c33cc29.png
Coherence(論理的な流れと構成)が、Opusだけ最高評価の5点であった。
https://scrapbox.io/files/66497b533cd2dd001cd0f1ab.png
一般タスク
結果
https://scrapbox.io/files/6649754f2739a3001d6e5385.png
関連