Training Compute-Optimal Large Language Models
https://arxiv.org/abs/2203.15556
https://arxiv.org/abs/2203.15556.pdf
from
Google DeepMind
Chinchilla paper
単にパラメータ数を増やすだけでは不十分で、そのニューラルネットに与える学習データとのバランスも重要だ、ということを指摘しています。つまり、大量の高性能GPUをNvidiaから購入するだけでは不十分で、それに加えて、大量の学習データを何らかの方法で入手し、長い時間をかけて機械学習させなければならない