スケーリング則とオッカムの剃刀
OpenAIが発見したScaling Lawの秘密
Scaling Lawは多様体仮説を仮定すれば説明できるらしい
CNNやLLMでの観測
Over-parametrization
訓練誤差を下げ続けるとテスト誤差が下がる
パラメータサイズが大きいと二重降下現象が起こる
テスト誤差が一度上昇して、その後また下降し始める
推論におけるスケール則
話す前に考えるOpenAI o1、推論スケール則の登場
Scaling Laws For Diffusion Transformers
s1: Simple test-time scaling