VAE - work4ai

VAE

https://gyazo.com/50a281576833537fe414890f910b5470

エンコード

デコード

潜在空間からピクセルデータを取り出す

これらは非可逆圧縮である？

歴史的な話をするとこのVAE自体が元々は画像生成モデルとして研究されていたもの。

ただ、学習量が少ないと学習した画像以外を潜在空間に落とし込むと復元で壊れやすい問題があった

…が、それを逆手に取って「工業製品等の異常検知」に使う用途で先に実用化されてたりする

これ厳密にはAEと言うアーキテクチャ的には似てるモデル(直接の技術継承関係はない)の話だったmorisoba65536.icon

学習した画像以外の復元が苦手≒学習した画像と違う特徴のある良くにたものを復元すると壊れた画像になるので、正常品だけ覚えたVAEを使えば異常品を炙り出せる、と言う使い方

純粋な画像生成としては主役にはならなかったものの、Stable diffusionにて「拡散モデルの計算量を減らすために潜在空間で推論する」と言う手法に採用されたことで画像生成の主要パーツの一部としてデファクトスタンダードな地位を得た。

latent diffusion model

一度ピクセル画像をlatent imageに圧縮してノイズ除去をすることで、計算量を大幅に減らしている

具体的に何やっててとか言う技術的な話に興味のある人向け解説記事