VAE
https://gyazo.com/50a281576833537fe414890f910b5470
from :
https://github.com/madebyollin/taesd
エンコード
ピクセルデータ
を
潜在空間
に圧縮する
デコード
潜在空間からピクセルデータを取り出す
これらは
非可逆圧縮
である?
Stable Diffusion works with images in a format that represents each 8x8 pixel patch with 4 numbers, and uses a pair of neural networks called a variational autoencoder (VAE) and a decoder to translate between images and this format. The gallery has 5 recent images passed into a VAE and then decoded.
latent diffusion model
一度ピクセル画像をlatent imageに圧縮してノイズ除去をすることで、計算量を大幅に減らしている