BitNet
2024-02-28
前からあったよね感に関して
goto_yuta_ BitNet b1.58について、真の意味での1bitのBitNetは元から存在していて、今回発表された「BitNet b1.58」はその亜種みたいなもので、元の1bit BitNetが持ってたパラメータに0を追加したことで結果として扱う平均情報量が1.58になって「BitNet b1.58」ということか。 なるほどね
mr_bay_area 1-bit LLMの話、なんか大昔にあった気がしていて多分この論文だと思うのだけれども、引用されてなかったよ Binarized Neural Networks: Training Deep Neural Networks with...
goto_yuta_ Githubに実装も公開されてて、アーキテクチャ図もあるけど、Transformerの部品にBitってつけてビット加算にしてるだけでやってることはまじで同じそう。 なんで精度上がるんや...
https://gyazo.com/c5dc75a94a586f2380d18f9ab4593308
行列の中身を1ビット(0 or 1のみ)にして、行列演算に乗算が必要なくなって高速化させてるらしい。
高速化する理屈はわかるけど、論文によるとなぜか精度も向上してるらしい。
やばすぎて一旦様子見。