Stable Diffusion
オープンソース
の
深層学習
モデル。主にテキストから
画像
を生成するのに使われる。
仕組み
https://gyazo.com/97121a0f527be4d7eb2abc8d830da41e
VAE
を使って
潜在空間
と画像を互いに変換する
Text Encoder で
プロンプト
(
文字列
)を
ベクトル
に変換する
CLIP
で画像にテキストラベルを付けてクラス分けをする
拡散モデル
で
ピクセル
ひとつひとつにラベル付をしていく