宝くじ仮説ってなんだ

from AIのおべっか

宝くじ仮説ってなんだ

from AIのおべっか

宝くじ仮説ってなんだ

そういえば関係ないけどバックプロパゲーションで学習する前の最初のランダムの数字の配列によってモデルの出来が変わるみたいな話を思い出した、おもしろcaki.icon

最初の数字の羅列のこと初期パラメータていうんや

宝くじ仮説Summer498.icon

名前あるんだ！caki.icon

初期パラメータによって学習結果が大きく変わるため、最終的に良い結果を出している物は運がいいのではないかという仮説だったけSummer498.icon

これはおもしろいしページ内容と関係ないから切り出して深ぼろうとおもって書いたページたいとるだけどありがとう、感謝caki.icon

全然違ったSummer498.icon

文脈が多いので分ける

ニューラルネットワークのパラメータが過剰であればあるほど精度が良いという現象が発生。

これはパラメータひとつひとつのサイズが大きいと精度がいいということだろう、それはそうcaki.icon

言葉選びの問題かもしれないが取り敢えず違うと言っておこうSummer498.icon

そうなのか、完全に間違って理解していたcaki.icon

いやよく考えたら同じなまえのモデルで何Bみたいなのが違くてあれはパラメータ数のことなのでよく考えたらわかることだ

同じパラメータ数の同じモデルでサイズが大きいのと小さいのがあるが、あちらはそれぞれのパラメータの大きさが違うという認識で合ってるんだろうか、あとでしらべよう

パラメータ一つ一つの大きさを削減する研究もある。Summer498.icon

なんとなく float32 （32ビット浮動小数点数）が用いられるが、

32 bit である必要はあるのか、

16bit や 8 bit ではダメなのか、

浮動小数点数の整数部は（どうせ重みが0~1なのに）要るのか、

そもそも「浮動」小数点数である必要はあるのか、

「固定」小数点数であれば計算自体が重くなくなってよいのではないか、

固定小数点数で良いなら尚更 32 bit も要らないのではないか、

16 bit も要らないのではないか、

8 bit で良いのではないか、

いや 4 bit でも良いのではないか、

いや 2bit でも良いのではないか、

nbit $ =2^n値

いやいや 3 値（＝$ \log_23\approx 1.58bit）で良いのではないか

この記事を見た記憶がある、めちゃすご！となって印象つよいcaki.icon

といったふうな研究がある。

多分どうせ 1 ビットでもいいという研究もある。

突如実用化した1ビットLLM Bonsai-8B もう推論にGPUはほぼ不要になる。その先に何が起きるか

3値2値LLMとかなってくると本当に魔法みたいな動作だSummer498.icon

ちなみに「パラメータの大きさ」だとパラメータの個数の大きさの意味で使うことが多いSummer498.icon

そうなのか、知らなかったcaki.icon

パラメータの大きさが130億→130億個のパラメータ

なので、語弊を招きづらいように、（あまり使わない）パラメータ一つ一つの大きさと、パラメータの個数の大きさと区別を明確にした表現で説明している。

パラメータ一つ一つのサイズと言われると 1 パラメータ当たり何ビット使うかということを想起させるが、その解釈に従うと、間違い。

パラメータの個数が多ければ多いほど精度が良い

おわり。

しかし、同程度の精度で小型のニューラルネットワークを学習させる蒸留というテクニックもある。

これも知っているcaki.icon

さらに、プルーニング（枝刈り）により元のニューラルネットワークから直接不要な（影響の少ない）重みを削除して精度を保ちながらサイズを削減できる。

これが知らない！caki.icon

この説明で何をしてるかわかるけどなんでそんなことができるかわからない、あとで調べよう

ニューラルネットワークの計算が線形和$ \sum_j^nw_{i,j}x_iになっているため、$ wが$ 0に近いと次のノードへの寄与度が低い。そのようなエッジ（重み）は切ってしまえばメモリの削減にもなって良い。Summer498.icon

たしかにすぎるcaki.icon

$ x_iをノード（頂点）、$ w_{i,j}をエッジ（辺）としたグラフを描き、$ w_{i,j}が$ 0に近いエッジは「無い」のと同じ扱いにしてメモリごと削除してしまう（枝を刈っているように見える）

ワードセンスに関しては、丸くてもっさりした植木の枝を刈っているのを想像して欲しい。

ということは、デカいニューラルネットワークの中に同等の性能を発揮する小型ニューラルネットワークが含まれている。

そういえそうcaki.icon

逆に考えると、デカければデカいほどニューラルネットワークの精度が良いように思えたのは宝くじの母数を大きくして当たりを引きやすくなったからではないか？という仮説

なるほど〜、そうか？が2割、そうだな！が8割な気持ちcaki.icon

宝くじに例えるのが納得いかない気持ちがある

おわり。違ってたら誰か訂正お願い。

ちょっと目を離した隙に説明が書かれている！大感謝caki.icon

情報系なので、これくらいできますSummer498.icon

餅は餅屋

とか言っているとマサカリ来た時に恥ずかしいわね

理解できたありがとうcaki.icon

ちゃんと調べて嘘か真か調べるんやでSummer498.icon

え〜caki.icon

わかった！

えらいSummer498.icon

機械学習関連はネーミングがハイコンテキストすぎる

ネーミングを理解するために追う文脈が多すぎる

新技術が出た時にいつでもそういう風に思われるのかもしれないが