大規模言語モデルのスケール則
データを増やし、モデルの大きさ(パラメータ数)を増やし、計算資源を増やせば、精度がどんどん上がる。
つまり大きければ大きいほど性能があがる。
統計の常識に当てはまらない!
普通(重回帰分析、多変量解析など)、オーバーフィットしてしまう。
既知データは正解するが、未知データはうまくいかない。
「アテンション」が強く有効であるということ?
大規模言語モデルの開発状況
GPT-1:117Mパラメータ
GPT-2:1.5Bパラメータ
GPT-3:175Bパラメータ
GPT-4 :2兆パラメータ
https://youtu.be/U9vhGvFxKu0?si=fPZHoUtc4ioBybZ8&t=1149