VAE
https://gyazo.com/50a281576833537fe414890f910b5470
from : https://github.com/madebyollin/taesd
エンコード
ピクセルデータを潜在空間に圧縮する
デコード
潜在空間からピクセルデータを取り出す
これらは非可逆圧縮である?
Stable Diffusion works with images in a format that represents each 8x8 pixel patch with 4 numbers, and uses a pair of neural networks called a variational autoencoder (VAE) and a decoder to translate between images and this format. The gallery has 5 recent images passed into a VAE and then decoded.
歴史的な話をするとこのVAE自体が元々は画像生成モデルとして研究されていたもの。
ただ、学習量が少ないと学習した画像以外を潜在空間に落とし込むと復元で壊れやすい問題があった
…が、それを逆手に取って「工業製品等の異常検知」に使う用途で先に実用化されてたりする
学習した画像以外の復元が苦手≒学習した画像と違う特徴のある良くにたものを復元すると壊れた画像になるので、正常品だけ覚えたVAEを使えば異常品を炙り出せる、と言う使い方
純粋な画像生成としては主役にはならなかったものの、Stable diffusionにて「拡散モデルの計算量を減らすために潜在空間で推論する」と言う手法に採用されたことで画像生成の主要パーツの一部としてデファクトスタンダードな地位を得た。
latent diffusion model
一度ピクセル画像をlatent imageに圧縮してノイズ除去をすることで、計算量を大幅に減らしている