Imagen
Imagen: Text-to-Image Diffusion Models
2205.11487 Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
Submitted on 23 May 2022
Text-to-Image
Diffusion Model
Google Research Brain Team
は実装を公開していない
コミュニティの実装がある
https://github.com/lucidrains/imagen-pytorch
https://gyazo.com/60aa829a4ec4758feae62ff1f531bda7
DALL·E 2
より
COCO
データセットでの
FID
が良い
paper
https://imagen.research.google/paper.pdf
https://twitter.com/alfredplpl/status/1577235767608238081
https://github.com/lucidrains/imagen-pytorch
を使ってShadowverseのイラスト3500枚を学習
学習にRTX3090を使っても足りないので1回の超解像(収束していない)までの不完全版で実行。1週間。
超解像には別途
https://github.com/xinntao/Real-ESRGAN
を利用
paperではTPU 256枚で数日
https://www.docswell.com/s/alfredplpl/59YQLK-2022-08-07-145902#p3
解説
https://www.youtube.com/watch?v=N6lJvkoku9s