生成モデル - yuyan

生成モデル

「深層生成モデル」

第1回「生成モデル概要」

生成系の他に、異常検知、半教師あり学習、表現学習、メタ学習など

生成モデルの学習

潜在変数モデルと混合モデル

生成モデルだとできること

生成

密度推定

欠損値補完・ノイズ除去

生成モデルがデータ分布を近似するようにしたい

最尤推定

尤度が最も高いパラメータを選んだ時が、最も尤もらしい生成モデルとなるはず

汎化性能は経験分布がどれだけ真の分布を近似するかに依存する

潜在変数zを含めた生成モデルを潜在変数モデルという

混合ベルヌーイモデルの最尤推定はEMアルゴリズム

第2回「VAE」

深層生成モデルとは

深層潜在変数モデルとVAE

VAEと表現学習

VAEの発展と応用

第3回「GAN」

暗黙的な深層生成モデル

GAN

GANの諸問題と種類

GANの発展と応用

DCGAN (Deep Convolutional GAN): GANのCNN化

https://twitter.com/cvml_eg/status/1635274548361973770?s=20

第4回「自己回帰モデルとフローベースモデル」

自己回帰モデル

フローベースモデル

自己回帰フロー

第5回「エネルギーベースモデル」

エネルギーベースモデル

第6回「スコアベースモデルと拡散モデル」

スコアベースモデル

拡散確率モデル

第7回「深層生成モデルの発展と世界モデル」

世界モデルとは

世界モデルと深層生成モデル

2022.10 Variational autoencoders and Diffusion Models - Tim Salimans

https://www.youtube.com/watch?v=pea3sH6orMc

生成モデルはどのように世界を理解しているのか？

https://hillbig.github.io/ISM_Symposium2023_generativemodel_okanohara.pdf

Joint Multimodal Learning with Deep Generative Models

https://arxiv.org/abs/1611.01891

VAEs for multimodal disentanglement

Vector Quantized-VAE

人間の脳内にはjoint embeddingのようなことが行われている

Variational mixture-of-experts autoencoders for multi-modal deep generative models

VAEで表現学習ができて、いろんなモダリティを学習できる

モダリティの間の共通点が共有される一方、捨てられる情報もある

画像と言語それぞれのprivate情報がある

画像→文章、文章→画像を学習するとOK

４つの条件

1 Latent Factorisation

2 Joint Generation

3 Cross Generation

4 Synergy

Private-shared disentangled multimodal VAE for learning of latent representations

contentとstyleのentanglement

潜在空間で分布を被らせようとするdomain adaptation

shared spaceが同じになってほしい！

PoEを使って、shared spaceを学習させる

Learning Multimodal VAEs through Mutual Supervision

上記の２つの論文の違いを説明

StyleNeRF; A Style-based 3D Aware Generator for High-resolution Image Synthesis

NeRF + GAN

課題

・高解像度画像生成の際に計算コスト肥大化

解決

・アーティファクトが出ないupsampler

・蒸留

・Revisiting Progressive Growing

NeRF：各視点からみた3次元座標の輝度と密度を学習して、任意視点でのレンダリングが可能に

Volume Rendering：見えているところを描画する

小さい変化で大きく変化する高周波な関数を近似するのがNNは苦手

→高周波なフーリエ特徴で座標と視点を埋め込んで入力とすることで、NN自体は低周波な関数を近似するだけで良い、これがPositional Encoding

3Dポーズを制御可能にした既存研究では512^2以上の高解像度画像生成は困難

→3Dポーズを制御可能にした高解像度画像生成を可能にする、3Dポーズを制御可能にした高解像度画像生成の際の計算コストを減らす

・計算コスト削減のためのVolume Renderingの近似

・アーティファクトの出ないupsampler

・Revisiting Progressive Growing

・計算コストを軽くするための蒸留

・輝度予測のネットワークへの視点条件入力の取りやめ

・ノイズ入力を2Dから3Dへ

線形関数の期待値は中間区間で評価された関数の値と等価？

低解像度でradiance filedを得るために定式化した

GEODIFF: A GEOMETRIC DIFFUSION MODEL FOR MORECULAR CONFORMAITION GENERATION

A Conditional Point DIffusion-Refinement Paradigm for 3D Point Cloud Completion

拡散(Diffusion)モデルは実は進化計算だった

https://note.com/shi3zblog/n/na650219aeb95

https://arxiv.org/abs/2410.02543

Improving and generalizing flow-based generative models with minibatch optimal transport

https://arxiv.org/abs/2302.00482

生成AIのしくみ --流れが画像・音声・動画をつくる--

1章生成AIを作る

2章生成AIの歴史

3章流れをつかった生成

4章拡散モデルとフローマッチング

5章流れをつかった技術の今後

付録機械学習のキーワード