Hyper-SD

https://gyazo.com/cbccb3410496742b42ef5d2a9cb57dfb

従来のConsistency DistillationやConsistency Trajectory Modelは、全ての時間ステップを一度に処理しようとするが、モデルの適合能力が不足しているため、生成品質が低下することがある

この問題を解決するために、時間ステップを複数のセグメントに分割し、それぞれのセグメント内で一貫性を保ちながら蒸留を行うTrajectory Segmented Consistency Distillation(TSCD)を提案する

手順 by Copilot.icon

初期段階

時間ステップを8つのセグメントに分割します

各セグメント内で、元のディフュージョンモデルを使って生徒モデルを訓練します

例えば、最初のセグメントは時間範囲 0, T/2、次のセグメントは T/2, Tです

段階的な訓練

最初の段階で得られたモデル重みを使い、次の段階でセグメント数を減らして再訓練します

セグメント数を8から4、4から2、2から1と減らしていきます

最終的には、全ての時間ステップを一貫して処理できるモデルを得ます

LoRA strengthは0.125前後を推奨

各モデルのうち「CFG」とついてるものはCFGを7くらいまで上げられるように調整されたモデルになる。そのため基本的には既存のワークフローのうちステップ数を減らすだけで機能する。

また高速化しながらNegative Promptが機能する。

ただし、SDXL CFG loraについては8 step loraは品質が低め、12 step loraでも14ステップくらいは欲しい感じ…なので結果的にlcmや非CFG loraほどは速くならない。morisoba65536.icon

loraなので他のlora(場合によってmodel自体)との相性問題も時々起きる、明らかに変な絵が出たらloraを外して問題ないか確認した方が良い。