Training Compute-Optimal Large Language Models
https://arxiv.org/abs/2203.15556
言語モデルをトレーニングするための最適なモデルサイズとトークン数を調査します。
現在の大規模な言語モデルは大幅にトレーニングが不足していることがわかりました。これは、トレーニング データの量を一定に保ちながら言語モデルをスケーリングすることに最近重点が置かれている結果です。 500億から5000億のトークンで7,000万から160億以上のパラメータにわたる400を超える言語モデルをトレーニングすることにより、コンピューティングを最適化するトレーニングでは、モデルのサイズとトレーニングトークンの数を均等にスケールする必要があることがわかりました。モデルが2倍になるたびにトレーニング トークンのサイズも 2 倍にする必要があります。この仮説を、Gopher と同じコンピューティング バジェットを使用するが、70B のパラメーターと 4 倍以上のデータを使用する予測コンピューティング最適化モデル Chinchilla をトレーニングすることによってテストします。 Chinchilla は、広範囲の下流評価タスクにおいて、Gopher (280B)、GPT-3 (175B)、Jurassic-1 (178B)、および Megatron-Turing NLG (530B) を均一かつ大幅に上回っています。これは、Chinchilla が微調整と推論に使用するコンピューティングが大幅に少なくなり、ダウンストリームでの使用が大幅に容易になることも意味します。ハイライトとして、Chinchilla は MMLU ベンチマークで 67.5% という最先端の平均精度に達し、Gopher よりも 7% 向上しています。