冪乘則
$ f(x)=ax^k+O(x^k)
$ \log\circ f(x)=k\log x+\log a
$ f(x)=a x^kである場合、$ f(bx)=b^k f(x)\propto f(x)
冪乘分布
確率密度函數$ f(k;s,N)=\frac 1{\sum_{n=1}^N\frac 1{n^s}}\frac 1{k^s},$ s\in\R,s\ge 0,$ N\in\N^+
累積分布函數$ F(k;s,N)=\frac 1{\sum_{n=1}^N\frac 1{n^s}}\sum_{n=1}^N\frac 1{k^s}
確率密度函數$ f(x;\xi,\mu,\sigma)=\frac 1\sigma\left(1+\frac{\xi(x-\mu)}\sigma\right)^{\frac{-1}{\xi-1}}
累積分布函數$ F(x;\xi,\mu,\sigma)=1-\left(1+\frac{\xi(x-\mu)}\sigma\right)^{\frac{-1}\xi}
Lévy 分布
計算機
學習曲線
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre “Training Compute-Optimal Large Language Models” 2022/3/29 本硏究では、所定の計算資源豫算の下で Transformer 言語 model を訓練する際の最適な model size と token 數を體系的に調査した。その結果、現在の大規模言語 model (LLM)は大幅に過小訓練されてゐることが明らかとなった。これは近年、訓練 data 量を一定に保ちつつ言語 model の規模擴大に注力してきた結果である。7000 萬 parameter から160 億 parameter を超える範圍の 5~5000 億 token 規模の言語 model 400 種類以上を訓練した結果、計算資源效率を最大化する訓練においては、model size と訓練用 token 數を同等に scaling すべきであることが判明した。具體的には、model size が 2 倍になる場合、訓練用 token 數も同樣に 2 倍にする必要がある。この假說を檢證するため、Gopher と同等の計算資源豫算を用ゐつつ、700 億 parameter と 4 倍の訓練 data 量を採用した豫測最適 model「Chinchilla」を訓練した。Chinchilla は、Gopher (2800 億 parameter)、GPT-3 (1750 億 parameter)、Jurassic-1 (1780 億 parameter)、Megatron-Turing NLG (5300 億 parameter) といった競合 model を、廣範な下流評價 task において均一かつ有意に上囘る性能を示した。これは、Chinchilla が fine tuning や推論時の計算資源を大幅に削減できることを意味し、下流用途での實用性を大幅に向上させる。特に注目すべきは、Chinchilla が MMLU benchmark において 67.5% という最先端の平均精度を達成してをり、これは Gopher と比較して 7% の性能向上に相當する點である。 人閒の技能習得にも同じ傾向が見られる。逆正弦法則と共に 推論時の scaling
大規模言語 model (LLM)に關する現代の硏究において最も顯著な知見の一つは、學習時の計算資源を擴張することでモデルの性能が向上するといふ點である。しかしながら、推論時における計算資源の擴張がもたらす利點については、これまで充分な注目が集まってゐなかった。本調査硏究では、これらの推論時處理手法に焦點を當てる。我々はこれらの手法を、統一された數學的形式體系の下で 3 つの主要な領域に分類して考察する : トークン單位生成アルゴリズム、メタ生成アルゴリズム、および效率的な生成手法である。トークン單位生成アルゴリズム (一般にデコーディングアルゴリズムと呼ばれる) は、單一トークンを逐次サンプリングする方法、あるいはトークン單位の探索空閒を構築した上で出力を選擇する方法によって動作する。これらの手法は通常、言語モデルのロジット値、次トークン分布、あるいは確率スコアへのアクセスを前提としてゐる。メタ生成アルゴリズムは、部分系列または完全系列を對象とし、ドメイン知識の活用、バックトラッキング機能の實裝、外部情報の統合を可能にする。效率的な生成手法は、トークン單位のコスト削減と生成速度の向上を目的としてゐる。本調査では、傳統的な自然言語處理硏究、現代の大規模言語 model (LLM)硏究、および機械學習システム硏究という 3 つの異なる硏究コミュニティの視點を統合的に整理する。 parallel search (竝列生成と選擇)
best-of-N
PRM (process-supervised reward model)
ORM (outcome-supervised reward model) よりよい
step level search (段階的探索)
refinement (反復的改善)
大規模言語 model (LLM)の出力品質を向上させるため、推論時の計算リソースをより積極的に活用することは、オープンエンドな自然言語環境で自律的に學習・改善可能な汎用エージェントを構築する上で極めて重要なステップである。本論文では、大規模言語 model (LLM)における推論時計算量のスケーリング特性について體系的に検討する。特に、「固定された非自明な量の推論時計算リソースが利用可能である場合、大規模言語 model (LLM)は難易度の高いプロンプトに對してどの程度の性能向上が可能か」といふ核心的な問ひに焦點を當てる。この問ひへの囘答は、大規模言語 model (LLM)の達成可能な性能水準に關する知見を提供するだけでなく、大規模言語 model (LLM)の事前學習の將來像や、推論時計算リソースと事前學習時計算リソースの最適なトレードオフ戰略の策定にも重要な示唆を與へる。しかしながら、樣々なテスト時推論手法のスケーリング特性に關する硏究は未だ充分に行はれてをらず、既存硏究の多くはこれらの手法に對して否定的な結果を示してゐる。本硏究では、テスト時計算リソースを擴張するための主要な 2 つのメカニズムを分析する : (1) 高密度なプロセスベース檢證器報酬モデルを用ゐた探索手法、(2) テスト時に與へられたプロンプトに應じてモデルの應答分布を適應的に更新する手法である。兩ケースにおいて、テスト時計算リソースのスケーリング手法の有效性は、プロンプトの難易度によって大きく異なることが明らかとなった。この知見に基づき、我々は「計算リソース最適」スケーリング戰略を提案する。この戰略は、各プロンプトに対して適應的にテスト時計算リソースを最も效率的に配分することを目的としてゐる。この計算リソース最適戰略を適用することで、N 個の最良の手法を比較對象としたベースラインと比較して、テスト時計算リソースのスケーリング效率を 4 倍以上向上させることが可能である。さらに、FLOPs (浮動小數點演算囘數) が一致する條件下での評價において、より小規模なベースモデルがある程度の成功率を達成できる問題領域において、テスト時計算リソースを活用することで、14 倍規模の大規模モデルを上囘る性能を發揮できることを示す。 reasoning model
scale 不變
斉次多項式 - Wikipedia變數$ x_1,\dots,x_mに對して$ n次の多項式$ \sum_{i_1,\dots,i_n=0}^m a_{i_1\dots i_n}x_1\dots x_nを言ふ 共形 (conformal)
共形變換 (conformal transformation) scaling 指數は$ -2
クーロンの法則 - Wikipedia$ F=\frac 1{4\pi\varepsilon_0}\frac{q_1 q_2}{r^2},$ F=\frac 1{4\pi\mu_0}\frac{m_1 m_2}{r^2} 一般化冪乘分布
累積分布函數$ F(x;\alpha,\beta,\gamma)=1-e^{-\left(\frac{\log\frac x\gamma}\beta\right)^\alpha}
確率密度函數$ f(x;\alpha,\beta,\gamma)=\frac\alpha\beta\left(\frac{\log\frac x\gamma}\beta\right)^{\alpha-1}
形狀 parameter$ \alpha
$ F(x;1,\beta,\gamma)=1-\left(\frac\gamma x\right)^{\frac 1\beta}冪乘分布
尺度 parameter$ \beta
位置 parameter$ \gamma