AnyDoor - work4ai

AnyDoor

https://gyazo.com/061f0c32a4512bea17c61b78808b069c

対象のオブジェクトを画像内の指定した位置に移動させる画像編集手法

対象のオブジェクトをIdentity Feature ExtractionとDetail Feature Extractionに分けて注目し、拡散モデルに注入する

https://gyazo.com/c93d1491c0b49468fac33c717a18a5fa

学習データに動画を活用する

https://gyazo.com/55a3a2daccc00027727858cde9f298fc

動画内の一方のフレームでは対象のオブジェクトを切り抜く

別のフレームではボックスで切り抜いて、モデルが作りたい画像の例として使う

正則化画像？nomadoor.icon

モデルの学習に動画を使うのはなにげに初めて見た気がするnomadoor.icon

生成画像の一貫性を保つのには動画のほうが良いだろうとは思っていたのでこれから研究が進んでいって欲しい

https://damo-vilab.github.io/AnyDoor-Page/generate_images/images/gifs/image7.gif

inpainting

https://damo-vilab.github.io/AnyDoor-Page/generate_images/images/gifs/image9.gif

https://damo-vilab.github.io/AnyDoor-Page/generate_images/images/gifs/image10.gif

Prunedモデル(16.8GB → 4.9GB)