スケーリング則
Scaling Laws
自然言語処理モデルのパラメーター数・データセットのサイズ・トレーニングに使用される計算量が増えるほど損失がべき乗則に従って減少する法則