SnapFusion
https://snap-research.github.io/SnapFusion/
https://arxiv.org/abs/2306.00980
SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds
https://youtu.be/zK5PQ3Oj_L8
現在の拡散モデルの最適化は主にモデルの圧縮に焦点を当てているがいくつか弱点がある
モデルの性能を低下させる
モバイルデバイスで動かすには不十分
UNet
がボトルネックになっている。ので改良する
冗長性を特定し、不要な層を削除
Step Distillation
教師モデルから
学生モデル
へ蒸留し、推論ステップを減らす
SD v1.5との比較
https://gyazo.com/bf4de98e36271296ea38fb9267a24f38
SnapFusion 8steps 生成時間1.84sはSD v1.5 50steps 生成時間1.4m に
FIDとCLIP Scoreのトレードオフ
で勝る
軽量化