Hyper-SD
https://gyazo.com/cbccb3410496742b42ef5d2a9cb57dfb
https://hyper-sd.github.io/Project
https://arxiv.org/abs/2404.13686Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis
従来のConsistency DistillationやConsistency Trajectory Modelは、全ての時間ステップを一度に処理しようとするが、モデルの適合能力が不足しているため、生成品質が低下することがある
この問題を解決するために、時間ステップを複数のセグメントに分割し、それぞれのセグメント内で一貫性を保ちながら蒸留を行うTrajectory Segmented Consistency Distillation(TSCD)を提案する
手順 by Copilot.icon
初期段階
時間ステップを8つのセグメントに分割します
各セグメント内で、元のディフュージョンモデルを使って生徒モデルを訓練します
例えば、最初のセグメントは時間範囲 0, T/2、次のセグメントは T/2, Tです
段階的な訓練
最初の段階で得られたモデル重みを使い、次の段階でセグメント数を減らして再訓練します
セグメント数を8から4、4から2、2から1と減らしていきます
最終的には、全ての時間ステップを一貫して処理できるモデルを得ます
https://huggingface.co/ByteDance/Hyper-SDByteDance/Hyper-SD
Hyper-SD15
Hyper-SDXL
Hyper-SD3
Hyper-FLUX.1dev
LoRA strengthは0.125前後を推奨
各モデルのうち「CFG」とついてるものはCFGを7くらいまで上げられるように調整されたモデルになる。そのため基本的には既存のワークフローのうちステップ数を減らすだけで機能する。
また高速化しながらNegative Promptが機能する。
ただし、SDXL CFG loraについては8 step loraは品質が低め、12 step loraでも14ステップくらいは欲しい感じ…なので結果的にlcmや非CFG loraほどは速くならない。morisoba65536.icon
loraなので他のlora(場合によってmodel自体)との相性問題も時々起きる、明らかに変な絵が出たらloraを外して問題ないか確認した方が良い。
画像生成の高速化
lcm