SpotEdit

https://gyazo.com/d5b54c0907ff83a6faf0f961b0c19558

編集箇所は局所的なのに、指示ベース画像編集モデルは画像全体を再計算しており無駄が多い

なので編集部分だけ計算する

副次的な効果として、編集したくない領域まで多少変化してしまう問題を減らせる

https://gyazo.com/63a04c14d720f030cc5e8a1381c93de0

最初の数ステップは普通に全トークン回す

Spot Steps

SpotSelectorが再生成すべきトークンと、編集しないトークンを分ける

編集しない部分はDiTの計算をスキップして、参照画像の特徴を使う

最終仕上げ

最後に、非編集トークンを参照画像のlatentに置き換える

非編集領域はVAEエンコード・デコード以外の劣化を受けないことになる

SpotSelector

https://gyazo.com/b1456707e633d4754aa794db34e046af

Rectified Flowのと特性として、途中のXtからX0を推定できる

編集される領域と、そうでない領域で収束の速度が違うため、早いステップで参照画像と見た目が一致する場所→非編集領域とする

SpotSelectorを手動マスクに置き換えられるinpaintingノードとかあったら便利そうだと思ったけど、そもそもが画像編集モデル前提だから特に意味ないな…nomadoor.icon

そういえば最近inpainting自体あんまりしないな

崩れた手足とか出なくなったしな…