Training Compute-Optimal Large Language Models

Chinchilla paper

単にパラメータ数を増やすだけでは不十分で、そのニューラルネットに与える学習データとのバランスも重要だ、ということを指摘しています。つまり、大量の高性能GPUをNvidiaから購入するだけでは不十分で、それに加えて、大量の学習データを何らかの方法で入手し、長い時間をかけて機械学習させなければならない