AWQ
LLMの低ビット重み専用の量子化のためのハードウェアフレンドリーなアプローチであるActivation-aware Weight Quantization(AWQ)を提案します。顕著な重みの保護だけで、量子化誤差を大幅に減少させることができます。それから、顕著な重みを保護するための最適なチャネルごとのスケーリングを活性を観察して検索することを提案します。 また、AWQを加速するために再配置不要のオンラインデクォンタイゼーションを備えた効率的なテンソルコアカーネルを実装し、GPTQに比べて1.45倍のスピードアップを実現し、cuBLAS FP16実装よりも1.85倍速いです。私たちの方法は、LLMを3/4ビットに圧縮して効率的に展開するための完全なソリューションを提供します。