🦊Qwen-Image-Edit
🏠 | 🦊雑に学ぶComfyUI
👈 | 🦊Qwen-Image
👉 |
Qwen-Imageベースのコンテキスト画像編集モデルです
FLUX.1 Kontextとは違い、Qwen2.5-VLによって編集する画像を見て理解するため、より柔軟な編集が可能です
参考
https://docs.comfy.org/tutorials/image/qwen/qwen-image-editComfy.Org公式
CFGNormノードの必要性が分からないnomadoor.icon
https://github.com/QwenLM/Qwen-ImageQwenLM/Qwen-Image
モデルのダウンロード
https://huggingface.co/Comfy-Org/Qwen-Image-Edit_ComfyUI/tree/main/split_files/diffusion_modelsqwen_image_edit_(bf16 or fp8).safetensors
https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/split_files/text_encodersqwen_2.5_vl_7b_(fp8).safetensors
https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/split_files/vaeqwen_image_vae.safetensors
code:models
📂ComfyUI/
└── 📂models/
├── 📂diffusion_models/
│ └── qwen_image_edit_(bf16 or fp8).safetensors
├── 📂text_encoders/
│ └── qwen_2.5_vl_7b_(fp8).safetensors
└── 📂vae/
└── qwen_image_vae.safetensors
workflow
https://gyazo.com/e6680ee8d347101e1111d2d43b9778de
Qwen-Image-Edit.json
プロンプトをVLMで最適化する
入力した編集指示を、Qwen-Image-Editが理解しやすいようにVLMに編集させます
https://gyazo.com/bd3fa9b43a4861da4db4fe67ac932f91
Qwen-Image-Edit_w_Gemini.json
🟦Concatenateノード
上にはシステムプロンプトが入力されています
https://github.com/QwenLM/Qwen-Image/blob/main/src/examples/edit_demo.py#L15C2-L72C4システムプロンプト参考
下に編集指示を書いてください
🟦Google Geminiノード(API)にプロンプトと画像を入力します
せっかく横にQwen2.5_VLがあるので使いたいんですけどね…nomadoor.icon
ComfyUI組み込みではないけどMusubi Tunerにhttps://x.com/kohya_tech/status/1956603280567775455https://github.com/kohya-ss/musubi-tuner/blob/main/docs/tools.mdそんなスクリプトが組み込まれてますね…morisoba65536.icon
https://github.com/comfyanonymous/ComfyUI/issues/9274issuerは出てるけど採用されないかなぁ…nomadoor.icon
GGUF
カスタムノード
https://github.com/city96/ComfyUI-GGUFComfyUI-GGUF
モデルの追加ダウンロード
https://huggingface.co/QuantStack/Qwen-Image-Edit-GGUF/tree/mainQwen-Image-Edit-GGUF
🚨こだわりがなければQ4_K_Mをオススメします
cf. Qwen-Image-Edit GGUFモデル比較
https://huggingface.co/unsloth/Qwen2.5-VL-7B-Instruct-GGUF/tree/mainQwen2.5-VL-7B-Instruct-.gguf
https://huggingface.co/QuantStack/Qwen-Image-Edit-GGUF/blob/main/mmproj/Qwen2.5-VL-7B-Instruct-mmproj-BF16.ggufQwen2.5-VL-7B-Instruct-mmproj-BF16.gguf
code:models
📂ComfyUI/
└── 📂models/
├── 📂text_encoders/
│ ├── Qwen2.5-VL-7B-Instruct-.gguf
│ └── Qwen2.5-VL-7B-Instruct-mmproj-BF16.gguf
└── 📂unet/
└── Qwen_Image_Edit.gguf
https://gyazo.com/2eca12d9f90ca021a12063f1aca771b5
Qwen-Image-Edit_w_Gemini_gguf.json
🟨テキストエンコーダーはfp8でも動きますが、出力が少しズームイン・アウトが発生するので、GGUFで合わせたほうが良いかも?nomadoor.icon