BitNet
大規模な言語モデル向けに設計されたスケーラブルで安定した 1 ビット Transformer アーキテクチャである BitNet を紹介します。 BitNet は、最先端の 8 ビット量子化手法や FP16 Transformer ベースラインと比較して、メモリ フットプリントとエネルギー消費を大幅に削減しながら、競争力のあるパフォーマンスを達成していることが示されています。さらに、BitNet は完全精度の Transformer に似たスケーリング則を示し、効率とパフォーマンスの利点を維持しながら、さらに大きな言語モデルに効果的にスケーリングできる可能性を示唆しています。 -1,0,1の3値化 →$ log_23≒1.58