Diffusion Model
2023年10月12日
@yuma_koizumi: 今月の音響学会誌に、@yatabe_ 先生と一緒に、拡散モデルの解説を寄稿しました。元々、「易しい解説」の予定だったので、理工系の学部生をターゲットにして書いています。理工系でない方も分かるよう、2章は数式を一切使わず説明してみました。ご笑覧ください。
https://pbs.twimg.com/media/F8MiudhaMAAHb1_.jpg
Diffusion models are autoencoders – Sander Dieleman
Autoencoder
@btreetaiji: 拡散モデルが話題ですが,拡散モデルは分布推定の意味でミニマックス最適な推定誤差を達成可能であることを示しました.
分布のサポートが低次元である場合は次元の呪いを回避し,Wasserstein距離の意味で最適レートを達成することも示しています.
主著は弊研究室M1の大古君です.
@StatMLPapers: Diffusion Models are Minimax Optimal Distribution Estimators. (arXiv:2303.01861v1 ) https://ift.tt/9t8X7ci
https://www.youtube.com/watch?v=tfOv8NLCnZs
https://www.youtube.com/watch?v=O5FFQZzGFaE
https://www.youtube.com/watch?v=soJUR-fiqnI
拡散モデル データ生成技術の数理
拡散モデル:これまでにない生成品質と多様性を達成する生成モデル | 日経Robotics(日経ロボティクス)
深層生成モデルの1つである拡散モデル(Diffusion Model)の利用が急速に広がっている
2015年に米Stanford UniversityのSohl-Dickstein氏らによって最初のモデルが提案されてから)しばらく注目されていなかった
Deep Unsupervised Learning using Nonequilibrium Thermodynamics(2015)
2020年に米University of California BerkeleyのJonathan Ho氏ら)によって
ネットワークアーキテクチャや学習手法を工夫すれば他の深層生成モデルと同じ、もしくは上回る品質を達成できる
デノイジングスコアマッチングなどとつながりがある
ことが示され(本コラム 2020年9月号も参照)、再注目された。
Denoising Diffusion Probabilistic Modelsで提案
Diffusion Models Beat GANs on Image Synthesisも同じようなストーリー基素.icon
生成品質が高く、最尤推定によって学習するので多様なデータを生成でき、かつ安定して学習させることができる。
超解像、自動着色、画像修復、JPEG圧縮後修正
特に2022年4月に米OpenAIから発表されたDALL·E 2は拡散モデルを使ってテキストからの画像生成をこれまでにない品質と多様性で実現した
内部で2つの拡散モデル(テキストからCLIP画像埋め込みベクトル、CLIP画像埋め込みベクトルから画像)を組み合わせて使っている
実際にはテンソルらしい
/nishio/Stable Diffusionのpromptは77×768次元のテンソルになる
これまで難しかった動画生成も拡散モデルを使うことで実現できたと報告されている
訓練が安定しており、GAN で良く見られる問題が起きづらいhttps://ja.stateofaiguides.com/20220817-text2image-updates/
mode collapse
似たようなデータしか生成しなくなる現象 が起きにくい
など
What are Diffusion Models? | Lil'Log
和訳:What are Diffusion Models?
GANでSOTAなモデルより高い精度を達成しています
生成モデルの限界
https://gyazo.com/76a297d3d4f9b7960c0cce2e861ed4c1
from https://www.youtube.com/watch?list=PLbtqZvaoOVPB2WCoUt9VCsl7BQHRdhb8m&v=SfndfFvLQW8&source_ve_path=MjM4NTE&feature=emb_title
GANは敵対的学習の構造そのものに、学習の不安定さと多様性の欠如があります。
VAEは代理的に用いているロス関数に依存しています。
flowでは、逆変換を行えるモデル構造をしていなければいけません。
Diffusion Modelは非平衡熱力学から発想を得ています。マルコフ連鎖を用いて各diffusion stepで少しずつ画像などの実データにランダムノイズを足していきます。モデルは反対にノイズから少しずつ実データに近づけていくように学習します。
非平衡は熱力学では扱えないので非平衡統計力学のことだと思う基素.icon
VAEやFlowとは異なり、学習はすべて固定されて行われ、偏在変数は元データと同じ分だけの大きさを持ちます。
https://gyazo.com/be9161c0c855804fda2e52cc004e002b
確率的勾配Langevin動力学
Langevin方程式
https://www.youtube.com/watch?v=10ki2IS55Q4
VAEの仲間
/nishio/Stable Diffusion勉強会#632310b5aff09e0000fbca88
https://twitter.com/_determina_/status/1588814749118394368?s=20