Scaling Law
#AI
#機械学習
#Transformer
#Transformers
概要
Transformerの性能をまだまだ上昇させ続けられると期待される→やばい
Transformerの性能は3つの変数の冪乗則に支配されている
パラメータ数N
10倍で16%
データセットサイズD
10倍で20%
計算量C
10倍で12%
Transformerはモデルを大きくすると凄い!!
この傾向はまだまだ続く
データを増やすよりもモデルを大きくする方が良い
大モデルはデータ効率が良い
N=10^12くらいでScaling lawは破綻しそう
計算資源の最適配分
C = 6NBS
C計算量
Nパラメータ数
Bバッチサイズ
Sステップ数
Cを10倍した時には
Nを5倍
Bを2倍
Sを1.07倍
するのが最適配分
凄いポイント
法則がピタッと直線的になっている
裏で何か複雑系の理論、熱力学とかの法則とかと背後でリンクしている可能性?
まだまだ直線的に精度がスケールし続けそう
参考
OpenAIが発見したScaling Lawの秘密
https://youtu.be/n1QYofU3_hY
https://gigazine.net/news/20241126-ai-scaling-law/
https://youtube.com/shorts/eKcs3nN7-xc?si=ke0uKR_ahU5kyG3K