生成モデル
「深層生成モデル」
第1回 「生成モデル概要」
生成系の他に、異常検知、半教師あり学習、表現学習、メタ学習など
生成モデルの学習
潜在変数モデルと混合モデル
生成モデルだとできること
生成
密度推定
欠損値補完・ノイズ除去
生成モデルがデータ分布を近似するようにしたい
最尤推定
尤度が最も高いパラメータを選んだ時が、最も尤もらしい生成モデルとなるはず
汎化性能は経験分布がどれだけ真の分布を近似するかに依存する
潜在変数zを含めた生成モデルを潜在変数モデルという
混合ベルヌーイモデルの最尤推定はEMアルゴリズム
第2回 「VAE」
深層生成モデルとは
深層潜在変数モデルとVAE
VAEと表現学習
VAEの発展と応用
第3回 「GAN」
暗黙的な深層生成モデル
GAN
GANの諸問題と種類
GANの発展と応用
DCGAN (Deep Convolutional GAN): GANのCNN化
第4回 「自己回帰モデルとフローベースモデル」
自己回帰モデル
フローベースモデル
自己回帰フロー
第5回 「エネルギーベースモデル」
エネルギーベースモデル
第6回 「スコアベースモデルと拡散モデル」
スコアベースモデル
拡散確率モデル
第7回 「深層生成モデルの発展と世界モデル」
世界モデルとは
世界モデルと深層生成モデル
2022.10 Variational autoencoders and Diffusion Models - Tim Salimans
https://www.youtube.com/watch?v=pea3sH6orMc
生成モデルはどのように世界を理解しているのか?
Joint Multimodal Learning with Deep Generative Models
VAEs for multimodal disentanglement
Vector Quantized-VAE
人間の脳内にはjoint embeddingのようなことが行われている
Variational mixture-of-experts autoencoders for multi-modal deep generative models
VAEで表現学習ができて、いろんなモダリティを学習できる
モダリティの間の共通点が共有される一方、捨てられる情報もある
画像と言語それぞれのprivate情報がある
画像→文章、文章→画像を学習するとOK
4つの条件
1 Latent Factorisation
2 Joint Generation
3 Cross Generation
4 Synergy
Private-shared disentangled multimodal VAE for learning of latent representations
contentとstyleのentanglement
潜在空間で分布を被らせようとするdomain adaptation
shared spaceが同じになってほしい!
PoEを使って、shared spaceを学習させる
Learning Multimodal VAEs through Mutual Supervision
上記の2つの論文の違いを説明
StyleNeRF; A Style-based 3D Aware Generator for High-resolution Image Synthesis
NeRF + GAN
課題
・高解像度画像生成の際に計算コスト肥大化
解決
・アーティファクトが出ないupsampler
・蒸留
・Revisiting Progressive Growing
NeRF:各視点からみた3次元座標の輝度と密度を学習して、任意視点でのレンダリングが可能に
Volume Rendering:見えているところを描画する
小さい変化で大きく変化する高周波な関数を近似するのがNNは苦手
→高周波なフーリエ特徴で座標と視点を埋め込んで入力とすることで、NN自体は低周波な関数を近似するだけで良い、これがPositional Encoding
3Dポーズを制御可能にした既存研究では512^2以上の高解像度画像生成は困難
→3Dポーズを制御可能にした高解像度画像生成を可能にする、3Dポーズを制御可能にした高解像度画像生成の際の計算コストを減らす
・計算コスト削減のためのVolume Renderingの近似
・アーティファクトの出ないupsampler
・Revisiting Progressive Growing
・計算コストを軽くするための蒸留
・輝度予測のネットワークへの視点条件入力の取りやめ
・ノイズ入力を2Dから3Dへ
線形関数の期待値は中間区間で評価された関数の値と等価?
低解像度でradiance filedを得るために定式化した
GEODIFF: A GEOMETRIC DIFFUSION MODEL FOR MORECULAR CONFORMAITION GENERATION
A Conditional Point DIffusion-Refinement Paradigm for 3D Point Cloud Completion
拡散(Diffusion)モデルは実は進化計算だった
Improving and generalizing flow-based generative models with minibatch optimal transport