スケーリング則とオッカムの剃刀 - yuyan

スケーリング則とオッカムの剃刀

統計的機械学習

OpenAIが発見したScaling Lawの秘密

https://deeplearning.hatenablog.com/entry/scaling_law

Scaling Lawは多様体仮説を仮定すれば説明できるらしい

CNNやLLMでの観測

https://jmlr.org/papers/v23/20-1111.html

Over-parametrization

訓練誤差を下げ続けるとテスト誤差が下がる

パラメータサイズが大きいと二重降下現象が起こる

テスト誤差が一度上昇して、その後また下降し始める

推論におけるスケール則

話す前に考えるOpenAI o1、推論スケール則の登場

https://xtech.nikkei.com/atcl/nxt/mag/rob/18/00007/00080/

Scaling Laws For Diffusion Transformers

https://arxiv.org/abs/2410.08184

s1: Simple test-time scaling

https://arxiv.org/abs/2501.19393