SageAttention
1.06なら普通にpipで入る(30xxならこちらで良い)
RTX 40XXだと2.x.x系で性能が上がり、RTX 50XXだと2.x.x系の対応になるためビルドをしたりする必要があり、Windows環境だと導入難度が跳ね上がる。
Nvidia GPUの場合、shader modelという機能が8.0以降じゃないと動かない
自分のGPUがいくつなのかは、以下のサイトで調べると分かる(外部サイト注意)
SageAttention (1)
Gemini.icon要するに、SageAttentionは QK^T の計算にはINT8量子化を、PV の計算にはFP16データ型とFP16アキュムレータを使用することで、精度を保ちつつ高速化を図っています。Softmax操作は精度の観点からFP32で実行されます
SageAttention2
ChatGPT.iconSageAttention①ではブロック単位(たとえば64×64など)でQ,KをINT8化していましたが、SageAttention2では「各GPUワープ(Warp)単位」でQ,KをINT4化します
P(=softmax(QKᵀ))をFP8、VをFP8に落とす→その後のマトリクス乗算を「FP8×FP8→FP16 Accumulator」で行う
SageAttention3
なんもわかりません🤤nomadoor.icon
関係ない