SageAttention

1.06なら普通にpipで入る(30xxならこちらで良い)

RTX 40XXだと2.x.x系で性能が上がり、RTX 50XXだと2.x.x系の対応になるためビルドをしたりする必要があり、Windows環境だと導入難度が跳ね上がる。

Nvidia GPUの場合、shader modelという機能が8.0以降じゃないと動かない

Tritonとの連携でミスるらしい

自分のGPUがいくつなのかは、以下のサイトで調べると分かる（外部サイト注意）

SageAttention (1)

Gemini.icon要するに、SageAttentionは QK^T の計算にはINT8量子化を、PV の計算にはFP16データ型とFP16アキュムレータを使用することで、精度を保ちつつ高速化を図っています。Softmax操作は精度の観点からFP32で実行されます

SageAttention2

ChatGPT.iconSageAttention①ではブロック単位（たとえば64×64など）でQ,KをINT8化していましたが、SageAttention2では「各GPUワープ（Warp）単位」でQ,KをINT4化します

P（＝softmax(QKᵀ)）をFP8、VをFP8に落とす→その後のマトリクス乗算を「FP8×FP8→FP16 Accumulator」で行う

SageAttention3

FP4を使ってさらに低精度化する

なんもわかりません🤤nomadoor.icon

関係ない