GPT-4o-mini - 河面知定 / kawamou

GPT-4o-mini

Pricing。

https://scrapbox.io/files/669c12464cef25001d9885da.png

価格的には最近ローカルLLMがアツいらしいの下記と考えが似そう。

> というのは、例えば64万円くらいのM3MaxのMacでは、Llama3-70Bモデルの推論速度は24tpsくらいらしい。これは丸１日ブッ通しで出力させ続けても207万トークンしか出力できない。

> Llama3-70BのAPI料金は入力1Mあたり0.59ドル、出力1Mあたり0.79ドルというかなりの激安で提供されている。207万トークン出力させるのに300円くらいしかかからない。

M3Max1日ぶん回すのと同じだけ使っても300円。

M3Max1日ぶん回すのに使う電気代と比べてどうか？

下記のtokens/s考えても圧倒的に速いし、1日以内に容易に実現できるし。

tokens/s。

https://scrapbox.io/files/669c12e2278662001d6a4de9.png

ローカルLLMは電気代だけでも4o-miniに負ける可能性すらある

言うまでもなく性能もなかなかに比肩しがたい

https://scrapbox.io/files/669c10b2e98814001c8f3f1c.png

ここでのMixtralとかはdeepinfraなの注意。

https://scrapbox.io/files/669c1100045bc7001c8e9060.png

評価者によってベンチマーク結果がどう変わるか確認するために、evaluatorをgpt-4o miniとローカルLLMにしてひたすらshaberi3ベンチマーク評価中。

70Bクラスになると、確かに電気代とgpt-4o miniのAPI料金がトントンぐらいになりそう。それでいて生成速度も10倍ぐらい速く、性能も高いってすごいな〜