DiffusionによるText2Imageの系譜と生成画像が動き出すまで
昨年から爆発的な流行を見せているAI画像生成について、網羅的かつ多角的なメタサーベイを執筆しました。
核となる拡散モデルの基礎、一般層への浸透、浮き彫りとなった問題点、および加速度的に発展する手法群をまとめています。
多分どこより情報量多いです。皆読んでね。
和文でこの情報量は目にしなかったから、いいな〜基素.icon
https://gyazo.com/713f1142339749ccb7cd85f993afa541
📄目次
(あえて少し並べ替え&work4aiでの表記に変更している部分がありますnomadoor.icon)
便利基素.icon
文中リンクが結構あるけどクリックする方法がない?スライドの弱点?基素.icon
PDFでダウンロードすれば見れますねnomadoor.icon
webサービスとしてはどうなんだろうか…
目次読書助かるtakker.icon
00 前提知識
01 Diffusion基礎
さらなるEnd2Endの条件付けを目指して ― p.34 02 Text2Imageの系譜
02-1 非Diffusionにおける研究界隈の動き
非DiffusionによるText2Image概観 ― p.38 02-2 Diffusionに基づく研究界隈の動き
Diffusionを用いたTxt2Image概観 ― p.40 拡散モデルの拡張技術
拡散モデルの包括的な解明に向けた考察
U-Netからの脱却
人手のフィードバックの利用
02-3 大衆化の動き
StableDiffusionから派生した画像生成サービス ― p.85 02-4 ゲームチェンジャーの出現
DeNAという企業名を背負ってこの辺り触れていくんだなー基素.icon
DeNAと元素法典ってなにかあったんですか?takker.icon
DeNAに限らず単純に企業名を出すと以下のような背景があるので引火リスクが高いという意味です基素.icon
絵描きの中では現時点ではかなり感情的に扱われているトピック
特にこのあたりの話題は絵描きの権利的な懸念の感情をくすぐる可能性が強い
NSFWにも触れてる
これを推進している人=学んでいる人全てが敵とみなされうる
コンテンツに関わっているとさらに引火リスクがまします
たとえばpixivがこれを公開したら燃えるのでは?
NovelAI Diffusion ― p.105 NovelAI Diffusionの苦手分野
02-5 絶えず技術は進歩していく
制作ソフトウェア等にもAIが搭載されていく流れ ― p.117 AI画像生成の潮流は我々に何をもたらしたのか ― p.122 03 爆発的な普及による弊害と継承
Midjourneyによるコンペ受賞と反感 ― p.128 → NO TO AI GENERATED IMAGES.icon
倫理と法はどこまで遵守されうるのか ― p.130 著作画像が無断で用いられないための枠組み作りに向けて ― p.131 Diffusionを用いたText2Video概観 ― p.133 この分量をこの濃度で、さらに時流の流れまで掴んでまとめ上げる手腕…流石にため息しか出ないnomadoor.icon