BitNet
https://arxiv.org/abs/2310.11453BitNet: Scaling 1-bit Transformers for Large Language Models
https://github.com/kyegomez/BitNetkyegomez/BitNet
https://arxiv.org/abs/2402.17764The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
大規模な言語モデル向けに設計されたスケーラブルで安定した 1 ビット Transformer アーキテクチャである BitNet を紹介します。
BitNet は、最先端の 8 ビット量子化手法や FP16 Transformer ベースラインと比較して、メモリ フットプリントとエネルギー消費を大幅に削減しながら、競争力のあるパフォーマンスを達成していることが示されています。さらに、BitNet は完全精度の Transformer に似たスケーリング則を示し、効率とパフォーマンスの利点を維持しながら、さらに大きな言語モデルに効果的にスケーリングできる可能性を示唆しています。
https://huggingface.co/shi3z/BitNetWikipedia110Mshi3z/BitNetWikipedia110M
https://github.com/microsoft/unilm/blob/master/bitnet/The-Era-of-1-bit-LLMs__Training_Tips_Code_FAQ.pdf The-Era-of-1-bit-LLMs__Training_Tips_Code_FAQ.pdf
https://huggingface.co/microsoft/bitnet-b1.58-2B-4Tmicrosoft/bitnet-b1.58-2B-4T
-1,0,1の3値化 →$ log_23≒1.58
メモリ効率は良いようだが、ハードウェアネイティブでの未対応(必然的に速度が落ちる)や「このモデル形式のために学習データを使ってモデルをイチから再学習する(≒既存モデルを変換するだけでは作れない)」等のネックとなる要素が多く、2025/04現時点ではたまに論文に出てくる程度にとどまっている。
なまじ普通の量子化で力技で1〜2Bit程度まで大型モデルなら縮めてしまえるのでやはりイチから再トレーニング、というのが大きなネックとなっている…(少なくとも有志のオタク達では手の出しようがない)morisoba65536.icon
そもそも速度を犠牲にしても容量を減らしたいのは逸般のオタクたち(基本的にVRAMが足りない)であり、企業側が問題にしてるのは基本的に速度(あのDeepSeek AI社も規制で速い半導体が手に入らないと言っているのであってVRAMが足りないと言っているわけではないので…)なのでハードウェアサポートがない(≒遅い)のはかなり手痛い所…
#Microsoft