VAE
Stable Diffusionではpixel spaceからlatent spaceに情報を圧縮するのに利用されている
https://gyazo.com/be9161c0c855804fda2e52cc004e002b
Multimodal learning is a framework for building models that make predictions based on different types of modalities. Important challenges in multimodal learning are the inference of shared representations from arbitrary modalities and cross-modal generation via these representations; however, achieving this requires taking the heterogeneous nature of multimodal data into account. In recent years, deep generative models, i.e. generative models in which distributions are parameterized by deep neural networks, have attracted much attention, especially variational autoencoders, which are suitable for accomplishing the above challenges because they can consider heterogeneity and infer good representations of data. Therefore, various multimodal generative models based on variational autoencoders, called multimodal deep generative models, have been proposed in recent years. In this paper, we provide a categorized survey of studies on multimodal deep generative models. (DeepL)
マルチモーダル学習は、異なる種類のモダリティに基づいて予測を行うモデルを構築するためのフレームワークである。
マルチモーダル学習における重要な課題は、
任意のモダリティからの共有表現の推論と、
その表現を介したクロスモーダル生成であるが、
その実現には、マルチモーダルデータの異質性を考慮する必要がある。
近年、深層生成モデル、すなわち、深層ニューラルネットワークによって分布をパラメータ化した生成モデルが注目されており、特に変分オートエンコーダは、異質性を考慮し、データの良好な表現を推測できるため、上記の課題の達成に適しているとされています。 そのため、近年、マルチモーダル深層生成モデルと呼ばれる変分オートエンコーダをベースとした様々なマルチモーダル生成モデルが提案されている。
本論文では、マルチモーダルディープ生成モデルに関する研究の分類的なサーベイを行う。
LDMは8×8の画素を1ピクセルに潰してしまっているので画像で与えられた情報の高周波成分は失われる 細部はVAEのデコーダが復元してるので、それでは画像で与えた個人の顔を保持することはできない。補助モデルが差分を吸収する
WebUI