スケーリング則とオッカムの剃刀
統計的機械学習
PRML
OpenAIが発見したScaling Lawの秘密
https://deeplearning.hatenablog.com/entry/scaling_law
Scaling Lawは多様体仮説を仮定すれば説明できるらしい
CNNやLLMでの観測
https://jmlr.org/papers/v23/20-1111.html
Over-parametrization
訓練誤差を下げ続けるとテスト誤差が下がる
パラメータサイズが大きいと二重降下現象が起こる
テスト誤差が一度上昇して、その後また下降し始める
推論におけるスケール則
話す前に考えるOpenAI o1、推論スケール則の登場
https://xtech.nikkei.com/atcl/nxt/mag/rob/18/00007/00080/
Scaling Laws For Diffusion Transformers
https://arxiv.org/abs/2410.08184
s1: Simple test-time scaling
https://arxiv.org/abs/2501.19393