SpotEdit
https://gyazo.com/d5b54c0907ff83a6faf0f961b0c19558
https://biangbiang0321.github.io/SpotEdit.github.io/Project
https://github.com/Biangbiang0321/SpotEditBiangbiang0321/SpotEdit
https://arxiv.org/abs/2512.22323SpotEdit: Selective Region Editing in Diffusion Transformers
編集箇所は局所的なのに、指示ベース画像編集モデルは画像全体を再計算しており無駄が多い
なので編集部分だけ計算する
副次的な効果として、編集したくない領域まで多少変化してしまう問題を減らせる
https://gyazo.com/63a04c14d720f030cc5e8a1381c93de0
最初の数ステップは普通に全トークン回す
Spot Steps
SpotSelectorが再生成すべきトークンと、編集しないトークンを分ける
編集しない部分はDiTの計算をスキップして、参照画像の特徴を使う
最終仕上げ
最後に、非編集トークンを参照画像のlatentに置き換える
非編集領域はVAEエンコード・デコード以外の劣化を受けないことになる
SpotSelector
https://gyazo.com/b1456707e633d4754aa794db34e046af
Rectified Flowのと特性として、途中のXtからX0を推定できる
Denoiser look-ahead?
編集される領域と、そうでない領域で収束の速度が違うため、早いステップで参照画像と見た目が一致する場所→非編集領域とする
SpotSelectorを手動マスクに置き換えられるinpaintingノードとかあったら便利そうだと思ったけど、そもそもが画像編集モデル前提だから特に意味ないな…nomadoor.icon
そういえば最近inpainting自体あんまりしないな
崩れた手足とか出なくなったしな…