Edit-R1
https://gyazo.com/5588a73ce952d475804d300d07b6e01a
https://github.com/PKU-YuanGroup/UniWorld-V2PKU-YuanGroup/UniWorld-V2
https://arxiv.org/abs/2510.16888v2Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback
Crucially, our framework is model-agnostic, delivering substantial performance gains when applied to diverse base models like Qwen-Image-Edit and FLUX-Kontext, demonstrating its wide appli-cability.
https://gyazo.com/1708fb0be1a5377ebaf931b63a059cf9
SFTと違い教師データを使用しない
1. モデル自身がN枚の編集画像を生成
2. MLLMが採点
3. DiffusionNFTで更新
既存画像編集モデルにEdit-R1を適用するLoRAモデル
https://huggingface.co/chestnutlzj/Edit-R1-Qwen-Image-Edit-2509chestnutlzj/Edit-R1-Qwen-Image-Edit-2509
https://huggingface.co/chestnutlzj/Edit-R1-FLUX.1-Kontext-devchestnutlzj/Edit-R1-FLUX.1-Kontext-dev
ベースデルとしてUniWorld-V2が出てるくるが、これがなんなのかわからないnomadoor.icon
Edit-R1は新しいフレームワークであり、model-agnosticのため、どのモデルにも適用可能?
UniWorld-V1にEdit-R1を採用した後継がUniWorld-V2?ginyakt.icon
それでQwen-Image-Editより性能高いわけ無い気がするんですよね…nomadoor.icon
わかりませんが、datasetのsourceにはLAION, LexArt, UniWorld-V1が使われているようです
単純にFinetunedされたUniWorld-V1というわけではなさそう?bench結果がいいだけ?
ちなみに、ImgEditとUniWorld-V1は同じPKU-YUAN-Labから
ImgEditのOverallがV1比で、3.26→4.49になっている。
一方で、FluxKontext/Qwen-Image-Edit-2509をBaselineとした場合の向上値は、0.31/0.13。
https://gyazo.com/cc45b52bb63bec5ca05614a1063ffcd2
Edit-R1-Qwen-Image-Edit-2509.json
通常の🦊Qwen-Image-2509のworkflowにLoRAを適用するだけで使える(ハズ)
nano-banana VS Qwen-Image-Edit VS Flux.1 Kontext
なんか、気の所為でも無くむしろ性能だいぶ下がってるような🤔?nomadoor.icon