pix2pix-zero

https://gyazo.com/a6721ff992eabc78d4a533f9abe65ae1

元の画像の形を保持できるimage2image手法

img2imgは元の画像にノイズを追加、それから徐々にノイズ除去をしていく

かけるノイズを強くすると元画像の形を保持できなくなる

pix2pix-zeroも元の画像にノイズを追加するが、それとは別に形を維持するためにcross-attention guidanceを生成する

https://github.com/pix2pixzero/pix2pix-zero/raw/main/assets/main.gif

目標のクロスアテンションマップに近づくようにノイズ除去をしていく

比較(SDEdit + word swap, DDIM + word swap, prompt-to-prompt )

https://gyazo.com/9e52ddddcfd0da49103133eae9588feb　

InstructPix2PixはGPT-3とStable Diffusionを組み合わせてデータセットを作り、それを用いて条件付き拡散モデルを作っていた

対してpix2pix-zeroは既存のモデルをそのまま利用できる

ただ、目的が違うので比較するものでもない