🦊Qwen-Image-Edit
🏠 | 🦊雑に学ぶComfyUI
👈 | 🦊Qwen-Image
👉 |
Qwen-Image-Editは、Qwen-ImageベースのIn-Context編集モデルです
FLUX.1 Kontextとは違い、Qwen2.5-VLによって編集する画像を見て理解するため、より柔軟な編集が可能です
2025/9/23
複数の参照画像に対応し、その他の性能が上がったQwen-Image-Edit-2509が登場
https://x.com/shamimatsu/status/1970479738583163115スタイルを変換するタスクでは従来のQwen-Image-Editの単純な上位互換というわけではないようです。使い分けが必要になりそうです。
https://www.taneyats.com/entry/qwen-image-edit-2509-like-use-like-nano-bananaPrompt次第では2509でもスタイル変換なども可能なようです。抽象的な指示では通りにくくなった?
https://x.com/kohya_tech/status/1972278411919069668内部実装的に見ると「Picture 1を〇〇」的に指定してやるのが良さそうだ
目次
🦊Qwen-Image-Edit#68a68f960000000000aadeb6モデルのダウンロード
🦊Qwen-Image-Edit#68aa7fa000000000003adc27Qwen-Image-Edit (旧)
🦊Qwen-Image-Edit#68d2c9770000000000c5d21cQwen-Image-Edit-2509
🦊Qwen-Image-Edit#68d27b720000000000fbd0b6出力画像がズームする問題
🦊Qwen-Image-Edit#68d38016000000000000a20eQwen-Image-Lightning
🦊Qwen-Image-Edit#68aa760000000000005cbd41GGUF
参考
https://docs.comfy.org/tutorials/image/qwen/qwen-image-editComfy.Org公式
CFGNormノードの必要性が分からないnomadoor.icon
https://www.reddit.com/r/StableDiffusion/comments/1n74r0d/comment/nco0x4m/?utm_source=share&utm_medium=mweb3x&utm_name=mweb3xcss&utm_term=1&utm_content=share_buttonCFGを上げたときに絵がおかしくなるのを防ぐ(つまりCFGを高めることを前提とした)ノードの模様who.icon
CFGを正規化して高い値使えるようにしたのは分かるのだけど、もともとCFG 2.5なのにいる?と思っていたnomadoor.icon
https://github.com/QwenLM/Qwen-ImageQwenLM/Qwen-Image
モデルのダウンロード
https://huggingface.co/Comfy-Org/Qwen-Image-Edit_ComfyUI/tree/main/split_files/diffusion_modelsqwen_image_edit_(bf16 or fp8).safetensors (旧ver)
https://huggingface.co/Comfy-Org/Qwen-Image-Edit_ComfyUI/tree/main/split_files/diffusion_modelsqwen_image_edit_2509_(bf16 or fp8).safetensors
https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/split_files/text_encodersqwen_2.5_vl_7b_(fp8).safetensors
https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/split_files/vaeqwen_image_vae.safetensors
code:models
📂ComfyUI/
└── 📂models/
├── 📂diffusion_models/
│ └── qwen_image_edit_edit_2509_(bf16 or fp8).safetensors
├── 📂text_encoders/
│ └── qwen_2.5_vl_7b_(fp8).safetensors
└── 📂vae/
└── qwen_image_vae.safetensors
Qwen-Image-Edit (旧)
https://gyazo.com/44b6d670af9d8108728363f270b2e727
Qwen-Image-Edit.json
Qwen-Image-Edit_v2.json
🟩TextEncodeQwenImageEditノード
1. 画像を1Mピクセルにリサイズ
2. VAEがあればlatent生成(refelence_latent)
3. テキスト+画像をQwen2.5 VLにわたす
画像のリサイズ処理が自動で入るので、生成する画像サイズ(latent_image)を1Mピクセル以外のものにすると意図しない画像になる可能性があります
Qwen-Image-Edit-2509
https://gyazo.com/cce4f5721d2ffc8e5ff45d9b88fda509
Qwen-Image-Edit_2509.json
🟩TextEncodeQwenImageEditPlusノード
TextEncodeQwenImageEditノードと比較して画像の入力が3つに増えた以外にもいくつか変更点があります
1. 画像を1Mピクセルにリサイズし、幅・高さが8の倍数になるよう丸めてlatent生成(refelence_latent)
2. 画像を384×384相当に縮小
3. system/user/assistant のLLaMA形式テンプレートにプロンプトを埋め込み
4. 2と3をを Qwen2.5-VL に入力する
後述のマルチリファレンス化の影響か、加工したい画像は「image1」「Picture 1」といった形で明示するほうが良いらしい
マルチリファレンス
https://gyazo.com/358c8441ff70ee58135d8340bd691200
Qwen-Image-Edit_2509_multi-ref.json
勝手にリサイズ処理が入るので、latent_imageだけ意識すれば、他の画像はリサイズしなくて良いです
出力画像がズームする問題
cf. Qwen-Image-Editで勝手にズームイン/アウトが発生する
なにをどうやっても防げないのでピクセルパーフェクトは諦めたほうがいいnomadoor.icon
1024×1024の正方形だけは歪まないので、本当に必要ならば正方形にpadding or cropするのが良いかな
プロンプトをVLMで最適化する
入力した編集指示を、Qwen-Image-Editが理解しやすいようにVLMに編集させます
TextEncodeQwenImageEditPlusノードには、これが内蔵されているので必要ない…ハズ
https://gyazo.com/bd3fa9b43a4861da4db4fe67ac932f91
Qwen-Image-Edit_w_Gemini.json
🟦Concatenateノード
上にはシステムプロンプトが入力されています
https://github.com/QwenLM/Qwen-Image/blob/main/src/examples/edit_demo.py#L15C2-L72C4システムプロンプト参考
下に編集指示を書いてください
🟦Google Geminiノード(API)にプロンプトと画像を入力します
せっかく横にQwen2.5_VLがあるので使いたいんですけどね…nomadoor.icon
ComfyUI組み込みではないけどMusubi Tunerにhttps://x.com/kohya_tech/status/1956603280567775455https://github.com/kohya-ss/musubi-tuner/blob/main/docs/tools.mdそんなスクリプトが組み込まれてますね…morisoba65536.icon
https://github.com/comfyanonymous/ComfyUI/issues/9274issuerは出てるけど採用されないかなぁ…nomadoor.icon
https://github.com/kijai/ComfyUI-WanVideoWrapper/issues/960ComfyUI-WanVideoWrapperのWan Video Prompt Extenderノードを使っても良いならできそうな感じ(画像も渡せるのかまでは確認しきれていない)ちゃんと読んだら2.5VLじゃなくて2しか対応してなかった…morisoba65536.icon
https://github.com/kijai/ComfyUI-WanVideoWrapper/blob/9cefe309e3d8eb9ad3afda576cf7098c72e9efad/qwen/qwen.py#L78ただこれを見れば何書けばよいかはわかるので日曜大工は出来そうかも?
ただGGUF読み込もうとするとかなり骨が折れそうなのでVRAM富豪(16GB以上に権利あり)前提の構成にはなりそう…
https://github.com/neverbiasu/ComfyUI-BAGEL/blob/master/example_workflows/bagel_image_understanding.pngComfyUI-BAGELあたりを使えばローカルでも完結できそうだけど自動でメモリ解放するようなノードでも併用しないとちょっとVRAMが厳しそう
Qwen-Image-Lightning
4 or 8 stepsで生成できるようにするQwen-Image-LightningのLoRAも問題なく使えます
Qwen-Image-Edit(-2509)用のlightning LoRAが出ました
モデル
https://huggingface.co/lightx2v/Qwen-Image-Lightning/blob/main/Qwen-Image-Lightning-4steps-V2.0-bf16.safetensorsQwen-Image-Lightning-4steps-V2.0-bf16.safetensors
https://huggingface.co/lightx2v/Qwen-Image-Lightning/blob/main/Qwen-Image-Lightning-8steps-V2.0-bf16.safetensorsQwen-Image-Lightning-8steps-V2.0-bf16.safetensors
https://huggingface.co/lightx2v/Qwen-Image-Lightning/blob/main/Qwen-Image-Edit-2509/Qwen-Image-Edit-2509-Lightning-4steps-V1.0-bf16.safetensorsQwen-Image-Edit-2509-Lightning-4steps-V1.0-bf16.safetensors
https://huggingface.co/lightx2v/Qwen-Image-Lightning/blob/main/Qwen-Image-Edit-2509/Qwen-Image-Edit-2509-Lightning-8steps-V1.0-bf16.safetensorsQwen-Image-Edit-2509-Lightning-8steps-V1.0-bf16.safetensors
https://gyazo.com/d507a4842df1deb961000244abca9a41
Qwen-Image-Edit_2509_lightning_4steps.json
Qwen-Image-Edit_2509_lightning_4steps_V2.json
4steps / CFG 1.0
GGUF
カスタムノードのインストール
https://github.com/city96/ComfyUI-GGUFComfyUI-GGUF
モデルの追加ダウンロード
https://huggingface.co/QuantStack/Qwen-Image-Edit-GGUF/tree/main Qwen-Image-Edit-GGUF (旧ver)
https://huggingface.co/QuantStack/Qwen-Image-Edit-2509-GGUF/tree/mainQwen-Image-Edit-2509-GGUF
🚨こだわりがなければQ4_K_Mをオススメします
cf. Qwen-Image-Edit GGUFモデル比較
https://huggingface.co/unsloth/Qwen2.5-VL-7B-Instruct-GGUF/tree/mainQwen2.5-VL-7B-Instruct-.gguf
https://huggingface.co/QuantStack/Qwen-Image-Edit-GGUF/blob/main/mmproj/Qwen2.5-VL-7B-Instruct-mmproj-BF16.ggufQwen2.5-VL-7B-Instruct-mmproj-BF16.gguf
code:models
📂ComfyUI/
└── 📂models/
├── 📂text_encoders/
│ ├── Qwen2.5-VL-7B-Instruct-.gguf
│ └── Qwen2.5-VL-7B-Instruct-mmproj-BF16.gguf
└── 📂unet/
└── Qwen_Image_Edit.gguf
Qwen-Image-Edit (旧)
https://gyazo.com/b4abd4422e36cb181d5593548536be4d
Qwen-Image-Edit_gguf.json
🟨テキストエンコーダーはfp8でも動きますが、出力が少しズームイン・アウトが発生するので、GGUFで合わせたほうが良いかも?nomadoor.icon
Qwen-Image-Edit-2509
https://gyazo.com/304258f039e00b7b98f3c951ebfd3061
Qwen-Image-Edit_2509_multi-ref_gguf.json
複数要素を結合する場合
https://www.reddit.com/r/StableDiffusion/comments/1n2bgvy/qwen_image_edit_3_image_combine_workflow/初期のworkflowでは🦊Wan2.1_VACEのように一枚の画像に結合しておく必要があった
現在ではQwen-Image-Edit-2509モデルで🦊TextEncodeQwenImageEditPlusノードから画像を三枚まで直接読み込ませれば同じようなことがより楽にできます。