大規模言語モデルのスケール則

データを増やし、モデルの大きさ(パラメータ数)を増やし、計算資源を増やせば、精度がどんどん上がる。

つまり大きければ大きいほど性能があがる。

統計の常識に当てはまらない！

普通(重回帰分析、多変量解析など)、オーバーフィットしてしまう。

既知データは正解するが、未知データはうまくいかない。

「アテンション」が強く有効であるということ？

大規模言語モデルの開発状況

GPT-1：117Mパラメータ

GPT-2：1.5Bパラメータ

GPT-3：175Bパラメータ

GPT-4 ：2兆パラメータ

https://youtu.be/U9vhGvFxKu0?si=fPZHoUtc4ioBybZ8&t=1149