Grokking
過学習してしばらく経ってから、急に汎化誤差が下がり始める(正解率が上がり始める)」という現象
https://blog.recruit.co.jp/data/articles/neurips_2022_2/
この現象を説明する仮説として、「学習は初期化、過学習、表現学習の順で進む。grokkingとは過学習から表現学習への相転移である」というものが提案されています 2。検証データへの汎化性能は表現学習によって獲得されますが、データが少ないとそのプロセスが阻害され、相転移にかかる時間が拡大するというわけです。