U-Net
https://arxiv.org/abs/1505.04597U-Net: Convolutional Networks for Biomedical Image Segmentation
元々は生物医学画像の分割用に開発された畳み込みニューラルネットワーク(CNN)で、より少ないトレーニング画像で動作し、より正確なセグメンテーションを目指して作られたらしい。
以下AIに纏めさせた画像生成に応用されるまでの流れ
従来のU-Netが持つマルチスケール特徴統合能力が、拡散モデルにおける反復的なノイズ除去プロセスに最適だったことが採用理由です。特にStable Diffusion(2022年)では潜在空間での処理と組み合わされ、計算効率と生成品質を両立させました。
初期の画像生成技術(GAN/VAE)と比較したU-Netの利点:
逐次的なノイズ除去プロセスへの適応性
時系列情報(拡散ステップ)の埋め込み可能性
高解像度画像の細部再現能力
現在は画像生成用途ではDiffusion Transformer、更に自己回帰モデルに先端モデルで移行しつつある。
画像生成AI関連のツールではこのU-Netを使ったStable Diffusionから広まった事もあり、拡散モデル部分を(U-Netを使っていないモデルでも)U-Net表記のまま指しているものもある。
このwikiでもよく出てくるComfyUIなんかもちょっとこの名残がある(フォルダ構成等に名残が見られる)