Inpainting
/nishio/Stable Diffusion Inpaintの仕組み
latent space
は次元を落としていて元の情報を全て持っていないので完全に再現はできない
input imageを
VAE
dncodeで次元を落としたもの(A)に対して、ノイズを混ぜる(B) - step 1
maskも同様に次元を落として作る(?)
Bをデノイズしたものとmaskのテンソル積をとる C
step1のノイズを変えながら何度も作って Cと直和(?)をとる
最終的にVAE decodeする