GPT-4o-mini
Pricing。
https://scrapbox.io/files/669c12464cef25001d9885da.png
> というのは、例えば64万円くらいのM3MaxのMacでは、Llama3-70Bモデルの推論速度は24tpsくらいらしい。これは丸1日ブッ通しで出力させ続けても207万トークンしか出力できない。
> Llama3-70BのAPI料金は入力1Mあたり0.59ドル、出力1Mあたり0.79ドルというかなりの激安で提供されている。207万トークン出力させるのに300円くらいしかかからない。
M3Max1日ぶん回すのと同じだけ使っても300円。
M3Max1日ぶん回すのに使う電気代と比べてどうか?
下記のtokens/s考えても圧倒的に速いし、1日以内に容易に実現できるし。
tokens/s。
https://scrapbox.io/files/669c12e2278662001d6a4de9.png
言うまでもなく性能もなかなかに比肩しがたい
https://scrapbox.io/files/669c10b2e98814001c8f3f1c.png
https://scrapbox.io/files/669c1100045bc7001c8e9060.png
評価者によってベンチマーク結果がどう変わるか確認するために、evaluatorをgpt-4o miniとローカルLLMにしてひたすらshaberi3ベンチマーク評価中。
70Bクラスになると、確かに電気代とgpt-4o miniのAPI料金がトントンぐらいになりそう。それでいて生成速度も10倍ぐらい速く、性能も高いってすごいな〜