宝くじ仮説ってなんだ
from AIのおべっか
宝くじ仮説ってなんだ
from AIのおべっか
宝くじ仮説ってなんだ
そういえば関係ないけどバックプロパゲーションで学習する前の最初のランダムの数字の配列によってモデルの出来が変わるみたいな話を思い出した、おもしろcaki.icon
最初の数字の羅列のこと初期パラメータていうんや
宝くじ仮説Summer498.icon
名前あるんだ!caki.icon
初期パラメータによって学習結果が大きく変わるため、最終的に良い結果を出している物は運がいいのではないかという仮説だったけSummer498.icon
これはおもしろいしページ内容と関係ないから切り出して深ぼろうとおもって書いたページたいとるだけどありがとう、感謝caki.icon
全然違ったSummer498.icon
文脈が多いので分ける
ニューラルネットワークのパラメータが過剰であればあるほど精度が良いという現象が発生。
これはパラメータひとつひとつのサイズが大きいと精度がいいということだろう、それはそうcaki.icon
言葉選びの問題かもしれないが取り敢えず違うと言っておこうSummer498.icon
そうなのか、完全に間違って理解していたcaki.icon
いやよく考えたら同じなまえのモデルで何Bみたいなのが違くてあれはパラメータ数のことなのでよく考えたらわかることだ
同じパラメータ数の同じモデルでサイズが大きいのと小さいのがあるが、あちらはそれぞれのパラメータの大きさが違うという認識で合ってるんだろうか、あとでしらべよう
パラメータ一つ一つの大きさを削減する研究もある。Summer498.icon
なんとなく float32 (32ビット浮動小数点数)が用いられるが、
32 bit である必要はあるのか、
16bit や 8 bit ではダメなのか、
浮動小数点数の整数部は(どうせ重みが0~1なのに)要るのか、
そもそも「浮動」小数点数である必要はあるのか、
「固定」小数点数であれば計算自体が重くなくなってよいのではないか、
固定小数点数で良いなら尚更 32 bit も要らないのではないか、
16 bit も要らないのではないか、
8 bit で良いのではないか、
いや 4 bit でも良いのではないか、
いや 2bit でも良いのではないか、
nbit $ =2^n値
いやいや 3 値(=$ \log_23\approx 1.58bit)で良いのではないか
この記事を見た記憶がある、めちゃすご!となって印象つよいcaki.icon
といったふうな研究がある。
多分どうせ 1 ビットでもいいという研究もある。
突如実用化した1ビットLLM Bonsai-8B もう推論にGPUはほぼ不要になる。その先に何が起きるか
3値2値LLMとかなってくると本当に魔法みたいな動作だSummer498.icon
ちなみに「パラメータの大きさ」だとパラメータの個数の大きさの意味で使うことが多いSummer498.icon
そうなのか、知らなかったcaki.icon
パラメータの大きさが130億→130億個のパラメータ
なので、語弊を招きづらいように、(あまり使わない)パラメータ一つ一つの大きさと、パラメータの個数の大きさと区別を明確にした表現で説明している。
パラメータ一つ一つのサイズと言われると 1 パラメータ当たり何ビット使うかということを想起させるが、その解釈に従うと、間違い。
パラメータの個数が多ければ多いほど精度が良い
おわり。
しかし、同程度の精度で小型のニューラルネットワークを学習させる蒸留というテクニックもある。
これも知っているcaki.icon
さらに、プルーニング(枝刈り)により元のニューラルネットワークから直接不要な(影響の少ない)重みを削除して精度を保ちながらサイズを削減できる。
これが知らない!caki.icon
この説明で何をしてるかわかるけどなんでそんなことができるかわからない、あとで調べよう
ニューラルネットワークの計算が線形和$ \sum_j^nw_{i,j}x_iになっているため、$ wが$ 0に近いと次のノードへの寄与度が低い。そのようなエッジ(重み)は切ってしまえばメモリの削減にもなって良い。Summer498.icon
たしかにすぎるcaki.icon
$ x_iをノード(頂点)、$ w_{i,j}をエッジ(辺)としたグラフを描き、$ w_{i,j}が$ 0に近いエッジは「無い」のと同じ扱いにしてメモリごと削除してしまう(枝を刈っているように見える)
ワードセンスに関しては、丸くてもっさりした植木の枝を刈っているのを想像して欲しい。
ということは、デカいニューラルネットワークの中に同等の性能を発揮する小型ニューラルネットワークが含まれている。
そういえそうcaki.icon
逆に考えると、デカければデカいほどニューラルネットワークの精度が良いように思えたのは宝くじの母数を大きくして当たりを引きやすくなったからではないか?という仮説
なるほど〜、そうか?が2割、そうだな!が8割な気持ちcaki.icon
宝くじに例えるのが納得いかない気持ちがある
おわり。違ってたら誰か訂正お願い。
ちょっと目を離した隙に説明が書かれている!大感謝caki.icon
情報系なので、これくらいできますSummer498.icon
餅は餅屋
とか言っているとマサカリ来た時に恥ずかしいわね
理解できたありがとうcaki.icon
ちゃんと調べて嘘か真か調べるんやでSummer498.icon
え〜caki.icon
わかった!
えらいSummer498.icon
機械学習関連はネーミングがハイコンテキストすぎる
ネーミングを理解するために追う文脈が多すぎる
新技術が出た時にいつでもそういう風に思われるのかもしれないが