冪乘則
$ f(x)=ax^k+O(x^k)
$ \log(f(x))=k\log x+\log a
$ f(x)=a x^kである場合、$ f(bx)=b^k f(x)\propto f(x)
冪乘分布
Zipfian 分布
確率密度函數$ f(k;s,N)=\frac 1{\sum_{n=1}^N\frac 1{n^s}}\frac 1{k^s},$ s\in\R,s\ge 0,$ N\in\N^+
累積分布函數$ F(k;s,N)=\frac 1{\sum_{n=1}^N\frac 1{n^s}}\sum_{n=1}^N\frac 1{k^s}
paretiana 分布
確率密度函數$ f(x;\xi,\mu,\sigma)=\frac 1\sigma\left(1+\frac{\xi(x-\mu)}\sigma\right)^{\frac{-1}{\xi-1}}
累積分布函數$ F(x;\xi,\mu,\sigma)=1-\left(1+\frac{\xi(x-\mu}\sigma\right)^{\frac{-1}\xi}
學習曲線
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre “Training Compute-Optimal Large Language Models” 2022/3/29 We investigate the optimal model size and number of tokens for training a transformer language model under a given compute budget. We find that current large language models are significantly undertrained, a consequence of the recent focus on scaling language models whilst keeping the amount of training data constant. By training over 400 language models ranging from 70 million to over 16 billion parameters on 5 to 500 billion tokens, we find that for compute-optimal training, the model size and the number of training tokens should be scaled equally: for every doubling of model size the number of training tokens should also be doubled. We test this hypothesis by training a predicted compute-optimal model, Chinchilla, that uses the same compute budget as Gopher but with 70B parameters and 4× more more data. Chinchilla uniformly and significantly outperforms Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), and Megatron-Turing NLG (530B) on a large range of downstream evaluation tasks. This also means that Chinchilla uses substantially less compute for fine-tuning and inference, greatly facilitating downstream usage. As a highlight, Chinchilla reaches a state-of-the-art average accuracy of 67.5% on the MMLU benchmark, greater than a 7% improvement over Gopher.
本硏究では、所定の計算資源豫算の下で Transformer 言語 model を訓練する際の最適な model size と token 數を體系的に調査した。その結果、現在の大規模言語 model (LLM)は大幅に過小訓練されてゐることが明らかとなった。これは近年、訓練 data 量を一定に保ちつつ言語 model の規模擴大に注力してきた結果である。7000 万 parameter から160 億 parameter を超える範圍の 5~5000 億 token 規模の言語 model 400 種類以上を訓練した結果、計算資源效率を最大化する訓練においては、model size と訓練用 token 數を同等に scaling すべきであることが判明した。具體的には、model size が 2 倍になる場合、訓練用 token 數も同樣に 2 倍にする必要がある。この假說を檢證するため、Gopher と同等の計算資源豫算を用ゐつつ、700 億 parameter と 4 倍の訓練 data 量を採用した豫測最適 model「Chinchilla」を訓練した。Chinchilla は、Gopher (2800 億 parameter)、GPT-3 (1750 億 parameter)、Jurassic-1 (1780 億 parameter)、Megatron-Turing NLG (5300 億 parameter) といった競合 model を、廣範な下流評價 task において均一かつ有意に上囘る性能を示した。これは、Chinchilla が fine tuning や推論時の計算資源を大幅に削減できることを意味し、下流用途での實用性を大幅に向上させる。特に注目すべきは、Chinchilla が MMLU benchmark において 67.5% という最先端の平均精度を達成してをり、これは Gopher と比較して 7% の性能向上に相當する點である。 人閒の技能習得にも同じ傾向が見られる。逆正弦法則と共に 一般化冪乘分布
累積分布函數$ F(x;\alpha,\beta,\gamma)=1-e^{-\left(\frac{\log\frac x\gamma}\beta\right)^\alpha}
確率密度函數$ f(x;\alpha,\beta,\gamma)=\frac\alpha\beta\left(\frac{\log\frac x\gamma}\beta\right)^{\alpha-1}
形狀 parameter$ \alpha
$ F(x;1,\beta,\gamma)=1-\left(\frac\gamma x\right)^{\frac 1\beta}冪乘分布
尺度 parameter$ \beta
位置 parameter$ \gamma
scale 不變
斉次多項式 - Wikipedia變數$ x_1,\dots,x_mに對して$ n次の多項式$ \sum_{i_1,\dots,i_n=0}^m a_{i_1\dots i_n}x_1\dots x_nを言ふ 共形 (conformal)
scaling 指數は$ -2
クーロンの法則 - Wikipedia$ F=\frac 1{4\pi\varepsilon_0}\frac{q_1 q_2}{r^2},$ F=\frac 1{4\pi\mu_0}\frac{m_1 m_2}{r^2}