Stable Diffusion - Klara Works

Stable Diffusion

オープンソースの深層学習モデル。主にテキストから画像を生成するのに使われる。

仕組み

https://gyazo.com/97121a0f527be4d7eb2abc8d830da41e

VAE を使って潜在空間と画像を互いに変換する

Text Encoder でプロンプト（文字列）をベクトルに変換する

CLIP で画像にテキストラベルを付けてクラス分けをする

拡散モデルでピクセルひとつひとつにラベル付をしていく