DiffusionによるText2Imageの系譜と生成画像が動き出すまで
https://twitter.com/RosaRugosaBeach/status/1630755983919300608?s=20はまなすなぎさ
昨年から爆発的な流行を見せているAI画像生成について、網羅的かつ多角的なメタサーベイを執筆しました。
核となる拡散モデルの基礎、一般層への浸透、浮き彫りとなった問題点、および加速度的に発展する手法群をまとめています。
多分どこより情報量多いです。皆読んでね。
和文でこの情報量は目にしなかったから、いいな〜基素.icon
https://gyazo.com/713f1142339749ccb7cd85f993afa541
DiffusionによるText2Imageの系譜と生成画像が動き出すまで
📄目次
(あえて少し並べ替え&work4aiでの表記に変更している部分がありますnomadoor.icon)
便利基素.icon
文中リンクが結構あるけどクリックする方法がない?スライドの弱点?基素.icon
PDFでダウンロードすれば見れますねnomadoor.icon
webサービスとしてはどうなんだろうか…
目次読書助かるtakker.icon
あなたは誰 ― p.2
最近Diffusionが熱い ― p.3
どんな方向けに書いたか ― pp.4-5
前書きに代えて ― p.6
00 前提知識
深層学習概観 ― pp.9-10
生成モデル概観 ― pp.11-12
Transformer概観 ― p.13
01 Diffusion基礎
Diffusion Models(拡散モデル)って? ― p.15
DDPM ― pp.16-27
→ DiffusionによるText2Imageの系譜と生成画像が動き出すまで#63ff80afe2dacc0000e8f9b1
DDIM ― p.28
→ DiffusionによるText2Imageの系譜と生成画像が動き出すまで#63ff80f8e2dacc0000e8f9b3
改良型DDPM ― p.29
超解像への応用 ― p.30
生成品質がBIgGANを超えるまで ― pp.31-32
さらなる高解像度生成を目指して ― p.33
さらなるEnd2Endの条件付けを目指して ― p.34
02 Text2Imageの系譜
02-1 非Diffusionにおける研究界隈の動き
CLIPの登場 ― p.37
非DiffusionによるText2Image概観 ― p.38
❌DALL-E ― p.151
CogView ― p.152
ERNIE-ViLG ― p.153
Make-A-Scene ― p.154
CogView2 ― p.155
Parti ― p.156
02-2 Diffusionに基づく研究界隈の動き
Diffusionを用いたTxt2Image概観 ― p.40
GLIDE ― pp.48-49
Latent Diffusion Models ― pp.50-51
DALL·E 2 ― pp.52-54
Imagen ― pp.55-57
Re-Imagen ― p.58
ERNIE-ViLG 2.0 ― pp.59-60
UPainting ― pp.61-62
eDiff-I ― pp.63-64
SceneComposer ― pp.65-66
ReCo ― pp.67-68
SpaText ― pp.69-70
UniD3 ― pp.71-72
Composer ― pp.73-75
拡散モデルの拡張技術
【パーソナライズ】― p.42
Textual Inversion ― p.159
DreamBooth ― p.160
DreamArtist ― p.161
Multiresolution Texual Inversion ― p.162
LoRA ― p.163
Custom Diffusion ― p.164
E4T ― pp.165-166
【画像編集】 ― p.43
Prompt2Prompt ― p.169
Imagic ― p.170
DiffEdit ― p.171
InstructPix2Pix ― p.172
Shape-Guided Diffusion ― p.173
SINE ― p.174
pix2pix-zero ― p.175
【表現力】 ― p.44
Self-Attention Guidance ― p.178
StructureDiffusion ― pp.179-181
MagicMix ― p.182
M-VADER ― p.183
【操作性・制御性】 ― p.45
Composable Diffusion ― pp.186-187
GLIGEN ― pp.188-189
ControlNet ― pp.190-193
Universal Guided Diffusion pp.194-196
MultiDiffusion ― p.197
T2I-Adapter ― p.198
Reduce, Reuse, Rescycle p.199
【推論高速化】 ― p.46
漸進的蒸留 ― p.203
誘導拡散モデルの蒸留 ― pp.204-205
DDPMの微分方程式化【基礎背景】 ― pp.206-215
DDIMの微分方程式化【基礎背景】 ― pp.216-217
PNDM ― p.219
DPM Solver ― p.220
DPM-Solver++ ― p.221
既存のDiffusionのその先へ ― p.47
拡散モデルの包括的な解明に向けた考察
EDM ― p.225
U-Netからの脱却
DiT ― pp.231-234
人手のフィードバックの利用
二値報酬推定に基づく整合性改善 ― pp.236-237
02-3 大衆化の動き
Midjourney ― p.78
DiscoDiffusion ― p.77
Stable Diffusion ― pp.79-81
Stable Diffusion web UI ― pp.82-83
InvokeAI ― p.84
StableDiffusionから派生した画像生成サービス ― p.85
Waifu Diffusion ― pp.86-87
02-4 ゲームチェンジャーの出現
NovelAI Diffusion ― pp.89-100
元素法典 ― p.101
DeNAという企業名を背負ってこの辺り触れていくんだなー基素.icon
DeNAと元素法典ってなにかあったんですか?takker.icon
/motoso/元素法典#634d60f6774b170000b069d0らへんの話かな
DeNAに限らず単純に企業名を出すと以下のような背景があるので引火リスクが高いという意味です基素.icon
絵描きの中では現時点ではかなり感情的に扱われているトピック
特にこのあたりの話題は絵描きの権利的な懸念の感情をくすぐる可能性が強い
NSFWにも触れてる
これを推進している人=学んでいる人全てが敵とみなされうる
コンテンツに関わっているとさらに引火リスクがまします
たとえばpixivがこれを公開したら燃えるのでは?
極東導本 ― p.102
NovelAIの為のシリーズ ― p.103
NovelAI 初心者教本 ― p.104
NovelAI Diffusion ― p.105
NovelAI Diffusionの苦手分野
02-5 絶えず技術は進歩していく
終わりなき開発螺旋 ― p.107
nijijourney ― pp.108-111
Anything 系列 ― pp.112-113
他モデル ― pp.114-116
制作ソフトウェア等にもAIが搭載されていく流れ ― p.117
モデルの独自開発 ― p.118
→ alfredplpl
VTuberという媒体を通じて、倫理的によりクリーンなモデルの共創を目指す動きも ― p.119
→ 絵藍ミツア
大きなうねりを俯瞰し続けるために ― pp.120-121
→ やまかず - クリエイター
AI画像生成の潮流は我々に何をもたらしたのか ― p.122
03 爆発的な普及による弊害と継承
著作権など権利関係の話 ― pp.124-126
訴訟問題への発展 ― p.127
→ Stability Al、DeviantArt、Midjourneyに対して集団訴訟
Midjourneyによるコンペ受賞と反感 ― p.128
二分されるクリエイターの反応 ― p.129
→ NO TO AI GENERATED IMAGES.icon
倫理と法はどこまで遵守されうるのか ― p.130
著作画像が無断で用いられないための枠組み作りに向けて ― p.131
→ オプトイン / オプトアウト
04 そしてText2Videoへ
Diffusionを用いたText2Video概観 ― p.133
Video Diffusion Models ― p.134
Make-A-Video ― pp.135-136
Imagen Video ― pp.137-138
Magic Video ― pp.139-140
Tune-A-Video ― pp.141-143
Gen-1 ― pp.144-146
まとめ ― p.146
この分量をこの濃度で、さらに時流の流れまで掴んでまとめ上げる手腕…流石にため息しか出ないnomadoor.icon