量子化モデル
Claude 3 Opus.icon
量子化(Quantization)モデルとは、機械学習モデルの重みやアクティベーションを低ビット数で表現することで、モデルのサイズを縮小し、推論速度を向上させる技術を適用したモデルのことを指します。
通常、深層学習モデルの重みは32ビットの浮動小数点数(FP32)で表現されます。しかし、多くの場合、重みの値は比較的小さな範囲に分布しているため、全ての重みを32ビットで表現する必要はありません。
量子化では、例えば以下のような方法でビット数を削減します。
8ビット整数(INT8)を使って重みを表現する
4ビット整数(INT4)を使って重みを表現する
2値(1ビット)で重みを表現する
ビット数を削減することで、モデルのサイズを大幅に縮小できます。また、INT8などの整数演算は、FP32の浮動小数点演算よりも高速に実行できるため、推論速度の向上にもつながります。
欠点
量子化によってモデルの精度が低下する可能性があります。そのため、量子化の手法やビット数の選択には注意が必要です。