SVDQuant
https://gyazo.com/8ca9bb5aeae59ec31196eca94a815acf
ChatGPT.iconによる解説
拡散モデルでは、単にモデルの重みだけを量子化するだけでは、計算を効率化できません。なぜなら、拡散モデルは非常に計算量が多いため、計算に関わる他の部分(例えば「アクティベーション」と呼ばれる中間データ)も量子化する必要があるからです。
この方法では、モデルの重みとアクティベーションを4ビットに量子化する際の問題(「外れ値」と呼ばれる極端な値)を解決します。外れ値が量子化を難しくするため、SVD(Singular Value Decomposition)という数学的な手法を用いて、外れ値を「低ランクな部分」に吸収させます。