CFG-Zero*
DiTかどうかよりFlow matchingモデルかどうかが大事?nomadoor.icon
Zero‑Init
(下手にCFGを使うより)最初の数ステップはCFGが0のほうが真の速度(velocity)に近いため、最初のkステップだけCFGを0にする
Optimized Scale
CFG に用いるガイダンススケール 𝑤 を 固定値 ではなく、無条件速度への射影から導出される 最適スカラー 𝑠∗ に置き換えます。
$ s^* = \frac{v_c^\top v_u}{\|v_u\|^2}.
かなり低コスト(実質的な生成時間増加0で)画質を上げれられる。
やはりちょっと公式ノードとは計算結果が違うのか出力は変わる