Stable Diffusion
オープンソースの深層学習モデル。主にテキストから画像を生成するのに使われる。
仕組み
https://gyazo.com/97121a0f527be4d7eb2abc8d830da41e
VAE を使って潜在空間と画像を互いに変換する
Text Encoder でプロンプト(文字列)をベクトルに変換する
CLIP で画像にテキストラベルを付けてクラス分けをする
拡散モデルでピクセルひとつひとつにラベル付をしていく