SnapFusion - work4ai

SnapFusion

https://snap-research.github.io/SnapFusion/

https://arxiv.org/abs/2306.00980SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds

https://youtu.be/zK5PQ3Oj_L8

現在の拡散モデルの最適化は主にモデルの圧縮に焦点を当てているがいくつか弱点がある

モデルの性能を低下させる

モバイルデバイスで動かすには不十分

U-netがボトルネックになっている。ので改良する

冗長性を特定し、不要な層を削除

Step Distillation

教師モデルから学生モデルへ蒸留し、推論ステップを減らす

SD v1.5との比較

https://gyazo.com/bf4de98e36271296ea38fb9267a24f38

SnapFusion 8steps 生成時間1.84sはSD v1.5 50steps 生成時間1.4m にFIDとCLIP Scoreのトレードオフで勝る