🦊Qwen-Image-Edit - work4ai

🦊Qwen-Image-Edit

🏠 | 🦊雑に学ぶComfyUI

👈 | 🦊Qwen-Image

👉 |

Qwen-Image-Editは、Qwen-ImageベースのIn-Context編集モデルです

FLUX.1 Kontextとは違い、Qwen2.5-VLによって編集する画像を見て理解するため、より柔軟な編集が可能です

2025/9/23

複数の参照画像に対応し、その他の性能が上がったQwen-Image-Edit-2509が登場

https://x.com/shamimatsu/status/1970479738583163115スタイルを変換するタスクでは従来のQwen-Image-Editの単純な上位互換というわけではないようです。使い分けが必要になりそうです。

https://www.taneyats.com/entry/qwen-image-edit-2509-like-use-like-nano-bananaPrompt次第では2509でもスタイル変換なども可能なようです。抽象的な指示では通りにくくなった？

https://x.com/kohya_tech/status/1972278411919069668内部実装的に見ると「Picture 1を〇〇」的に指定してやるのが良さそうだ

目次

🦊Qwen-Image-Edit#68a68f960000000000aadeb6モデルのダウンロード

🦊Qwen-Image-Edit#68aa7fa000000000003adc27Qwen-Image-Edit (旧)

🦊Qwen-Image-Edit#68d2c9770000000000c5d21cQwen-Image-Edit-2509

🦊Qwen-Image-Edit#68d27b720000000000fbd0b6出力画像がズームする問題

🦊Qwen-Image-Edit#68d38016000000000000a20eQwen-Image-Lightning

🦊Qwen-Image-Edit#68aa760000000000005cbd41GGUF

参考

https://docs.comfy.org/tutorials/image/qwen/qwen-image-editComfy.Org公式

CFGNormノードの必要性が分からないnomadoor.icon

https://www.reddit.com/r/StableDiffusion/comments/1n74r0d/comment/nco0x4m/?utm_source=share&utm_medium=mweb3x&utm_name=mweb3xcss&utm_term=1&utm_content=share_buttonCFGを上げたときに絵がおかしくなるのを防ぐ(つまりCFGを高めることを前提とした)ノードの模様who.icon

CFGを正規化して高い値使えるようにしたのは分かるのだけど、もともとCFG 2.5なのにいる？と思っていたnomadoor.icon

https://github.com/QwenLM/Qwen-ImageQwenLM/Qwen-Image

モデルのダウンロード

https://huggingface.co/Comfy-Org/Qwen-Image-Edit_ComfyUI/tree/main/split_files/diffusion_modelsqwen_image_edit_(bf16 or fp8).safetensors (旧ver)

https://huggingface.co/Comfy-Org/Qwen-Image-Edit_ComfyUI/tree/main/split_files/diffusion_modelsqwen_image_edit_2509_(bf16 or fp8).safetensors

https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/split_files/text_encodersqwen_2.5_vl_7b_(fp8).safetensors

https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/split_files/vaeqwen_image_vae.safetensors

code:models

📂ComfyUI/

└── 📂models/

├── 📂diffusion_models/

│ └── qwen_image_edit_edit_2509_(bf16 or fp8).safetensors

├── 📂text_encoders/

│ └── qwen_2.5_vl_7b_(fp8).safetensors

└── 📂vae/

└── qwen_image_vae.safetensors

Qwen-Image-Edit (旧)

https://gyazo.com/44b6d670af9d8108728363f270b2e727

Qwen-Image-Edit.json

Qwen-Image-Edit_v2.json

🟩TextEncodeQwenImageEditノード

1. 画像を1Mピクセルにリサイズ

2. VAEがあればlatent生成(refelence_latent)

3. テキスト+画像をQwen2.5 VLにわたす

画像のリサイズ処理が自動で入るので、生成する画像サイズ(latent_image)を1Mピクセル以外のものにすると意図しない画像になる可能性があります

Qwen-Image-Edit-2509

https://gyazo.com/cce4f5721d2ffc8e5ff45d9b88fda509

Qwen-Image-Edit_2509.json

🟩TextEncodeQwenImageEditPlusノード

TextEncodeQwenImageEditノードと比較して画像の入力が3つに増えた以外にもいくつか変更点があります

1. 画像を1Mピクセルにリサイズし、幅・高さが8の倍数になるよう丸めてlatent生成(refelence_latent)

2. 画像を384×384相当に縮小

3. system/user/assistant のLLaMA形式テンプレートにプロンプトを埋め込み

4. 2と3をを Qwen2.5-VL に入力する

後述のマルチリファレンス化の影響か、加工したい画像は「image1」「Picture 1」といった形で明示するほうが良いらしい

マルチリファレンス

https://gyazo.com/358c8441ff70ee58135d8340bd691200

Qwen-Image-Edit_2509_multi-ref.json

勝手にリサイズ処理が入るので、latent_imageだけ意識すれば、他の画像はリサイズしなくて良いです

出力画像がズームする問題

cf. Qwen-Image-Editで勝手にズームイン/アウトが発生する

なにをどうやっても防げないのでピクセルパーフェクトは諦めたほうがいいnomadoor.icon

1024×1024の正方形だけは歪まないので、本当に必要ならば正方形にpadding or cropするのが良いかな

プロンプトをVLMで最適化する

入力した編集指示を、Qwen-Image-Editが理解しやすいようにVLMに編集させます

TextEncodeQwenImageEditPlusノードには、これが内蔵されているので必要ない…ハズ

https://gyazo.com/bd3fa9b43a4861da4db4fe67ac932f91

Qwen-Image-Edit_w_Gemini.json

🟦Concatenateノード

上にはシステムプロンプトが入力されています

https://github.com/QwenLM/Qwen-Image/blob/main/src/examples/edit_demo.py#L15C2-L72C4システムプロンプト参考

下に編集指示を書いてください

🟦Google Geminiノード(API)にプロンプトと画像を入力します

せっかく横にQwen2.5_VLがあるので使いたいんですけどね…nomadoor.icon

ComfyUI組み込みではないけどMusubi Tunerにhttps://x.com/kohya_tech/status/1956603280567775455https://github.com/kohya-ss/musubi-tuner/blob/main/docs/tools.mdそんなスクリプトが組み込まれてますね…morisoba65536.icon

https://github.com/comfyanonymous/ComfyUI/issues/9274issuerは出てるけど採用されないかなぁ…nomadoor.icon

https://github.com/kijai/ComfyUI-WanVideoWrapper/issues/960ComfyUI-WanVideoWrapperのWan Video Prompt Extenderノードを使っても良いならできそうな感じ(画像も渡せるのかまでは確認しきれていない)ちゃんと読んだら2.5VLじゃなくて2しか対応してなかった…morisoba65536.icon

https://github.com/kijai/ComfyUI-WanVideoWrapper/blob/9cefe309e3d8eb9ad3afda576cf7098c72e9efad/qwen/qwen.py#L78ただこれを見れば何書けばよいかはわかるので日曜大工は出来そうかも？

ただGGUF読み込もうとするとかなり骨が折れそうなのでVRAM富豪(16GB以上に権利あり)前提の構成にはなりそう…

https://github.com/neverbiasu/ComfyUI-BAGEL/blob/master/example_workflows/bagel_image_understanding.pngComfyUI-BAGELあたりを使えばローカルでも完結できそうだけど自動でメモリ解放するようなノードでも併用しないとちょっとVRAMが厳しそう

Qwen-Image-Lightning

4 or 8 stepsで生成できるようにするQwen-Image-LightningのLoRAも問題なく使えます

Qwen-Image-Edit(-2509)用のlightning LoRAが出ました

モデル

https://huggingface.co/lightx2v/Qwen-Image-Lightning/blob/main/Qwen-Image-Lightning-4steps-V2.0-bf16.safetensorsQwen-Image-Lightning-4steps-V2.0-bf16.safetensors

https://huggingface.co/lightx2v/Qwen-Image-Lightning/blob/main/Qwen-Image-Lightning-8steps-V2.0-bf16.safetensorsQwen-Image-Lightning-8steps-V2.0-bf16.safetensors

https://huggingface.co/lightx2v/Qwen-Image-Lightning/blob/main/Qwen-Image-Edit-2509/Qwen-Image-Edit-2509-Lightning-4steps-V1.0-bf16.safetensorsQwen-Image-Edit-2509-Lightning-4steps-V1.0-bf16.safetensors

https://huggingface.co/lightx2v/Qwen-Image-Lightning/blob/main/Qwen-Image-Edit-2509/Qwen-Image-Edit-2509-Lightning-8steps-V1.0-bf16.safetensorsQwen-Image-Edit-2509-Lightning-8steps-V1.0-bf16.safetensors

https://gyazo.com/d507a4842df1deb961000244abca9a41

Qwen-Image-Edit_2509_lightning_4steps.json

Qwen-Image-Edit_2509_lightning_4steps_V2.json

4steps / CFG 1.0

GGUF

カスタムノードのインストール

https://github.com/city96/ComfyUI-GGUFComfyUI-GGUF

モデルの追加ダウンロード

https://huggingface.co/QuantStack/Qwen-Image-Edit-GGUF/tree/main Qwen-Image-Edit-GGUF (旧ver)

https://huggingface.co/QuantStack/Qwen-Image-Edit-2509-GGUF/tree/mainQwen-Image-Edit-2509-GGUF

🚨こだわりがなければQ4_K_Mをオススメします

cf. Qwen-Image-Edit GGUFモデル比較

https://huggingface.co/unsloth/Qwen2.5-VL-7B-Instruct-GGUF/tree/mainQwen2.5-VL-7B-Instruct-.gguf

https://huggingface.co/QuantStack/Qwen-Image-Edit-GGUF/blob/main/mmproj/Qwen2.5-VL-7B-Instruct-mmproj-BF16.ggufQwen2.5-VL-7B-Instruct-mmproj-BF16.gguf

code:models

📂ComfyUI/

└── 📂models/

├── 📂text_encoders/

│ ├── Qwen2.5-VL-7B-Instruct-.gguf

│ └── Qwen2.5-VL-7B-Instruct-mmproj-BF16.gguf

└── 📂unet/

└── Qwen_Image_Edit.gguf

Qwen-Image-Edit (旧)

https://gyazo.com/b4abd4422e36cb181d5593548536be4d

Qwen-Image-Edit_gguf.json

🟨テキストエンコーダーはfp8でも動きますが、出力が少しズームイン・アウトが発生するので、GGUFで合わせたほうが良いかも？nomadoor.icon

Qwen-Image-Edit-2509

https://gyazo.com/304258f039e00b7b98f3c951ebfd3061

Qwen-Image-Edit_2509_multi-ref_gguf.json

複数要素を結合する場合

https://www.reddit.com/r/StableDiffusion/comments/1n2bgvy/qwen_image_edit_3_image_combine_workflow/初期のworkflowでは🦊Wan2.1_VACEのように一枚の画像に結合しておく必要があった

現在ではQwen-Image-Edit-2509モデルで🦊TextEncodeQwenImageEditPlusノードから画像を三枚まで直接読み込ませれば同じようなことがより楽にできます。