Scaling Law

概要

Transformerの性能をまだまだ上昇させ続けられると期待される→やばい

Transformerの性能は3つの変数の冪乗則に支配されている

パラメータ数N

10倍で16%

データセットサイズD

10倍で20%

計算量C

10倍で12%

Transformerはモデルを大きくすると凄い!!

この傾向はまだまだ続く

データを増やすよりもモデルを大きくする方が良い

大モデルはデータ効率が良い

N=10^12くらいでScaling lawは破綻しそう

計算資源の最適配分

C = 6NBS

C計算量

Nパラメータ数

Bバッチサイズ

Sステップ数

Cを10倍した時には

Nを5倍

Bを2倍

Sを1.07倍

するのが最適配分

凄いポイント

法則がピタッと直線的になっている

裏で何か複雑系の理論、熱力学とかの法則とかと背後でリンクしている可能性？

まだまだ直線的に精度がスケールし続けそう

参考

https://youtu.be/n1QYofU3_hY

https://youtube.com/shorts/eKcs3nN7-xc?si=ke0uKR_ahU5kyG3K