LLMの学習コスト
from Foundry
実際LLMの製作コストってどのくらいなんだろnomadoor.icon
How much does it cost to train a state-of-the-art foundational LLM?
$4M.
Facebook's 65B LLaMA trained for 21 days on 2048 Nvidia A100 GPUs. At $3.93/hr on GCP, that's a total of ~$4M.
Google's 540B PaLM was trained on 6144 v4 TPUs for 1200hrs. At $3.22/hr is a total of ~$27M Deedy
LLMの学習コスト
4M$ ≒ 5.4億円
基盤LLM学習にGCPでA100GPU 2048枚を21日間課金(536円/A100時)で約5.5億円。
研究用HPCのA100課金は一桁安く、仮に
- 産総研ABCI(960枚x82.5円)
- 東京大学Aquarius(360枚x31.3円)
- 大阪大学SQUID(336枚x22.9円)
の1656枚を26日間利用したら約6100万円。科研費基盤A全力を1ヶ月弱で消費。 Shinji Nishimoto
Bilzard(@bilzrd)
R1のベースモデルであるDeepSeek-v3の事前学習のコストは~$5Mらしい。
これにはパラメータ探索などのコストは含まれないが、それでも$数10Mほどの計算機コストで実現できたのではないか。
これを考えると後発のプレイヤーでも高い目標と実現能力があればトップ競争に参入できる可能性が見える。
https://gyazo.com/d0bd2ee8eb1fe804d7cae120ad2d8dab
2年経ってもそんなに変わっていない?wogikaze.icon
パラメータ数(モデルサイズ)がだいぶインフレしてるので上記のmeta-llama学習時点(2023前半)のコストが1Bにつき$61.1K、DeepSeek V3(2024終盤)で$7.45Kとなるので下がっているとはいえるのかな(単純計算なので比較として正しいかは不明)morisoba65536.icon
あと、mitやApache2.0 Licenseモデルが十分増えてきたのでそれらを素体にして育てる形ならかなりコストを抑えれるはず(ただフルスクラッチになるとやはり研究コストがかかるかと)