スケーリング則
Scaling Laws
自然言語処理
モデル
のパラメーター数・
データセット
のサイズ・トレーニングに使用される
計算量
が増えるほど
損失
が
べき乗則
に従って減少する法則