🦊Qwen-Image-Edit
👉 |
2025/9/23
目次
参考
CFGを正規化して高い値使えるようにしたのは分かるのだけど、もともとCFG 2.5なのにいる?と思っていたnomadoor.icon
モデルのダウンロード
code:models
📂ComfyUI/
└── 📂models/
├── 📂diffusion_models/
│ └── qwen_image_edit_edit_2509_(bf16 or fp8).safetensors
├── 📂text_encoders/
│ └── qwen_2.5_vl_7b_(fp8).safetensors
└── 📂vae/
└── qwen_image_vae.safetensors
Qwen-Image-Edit (旧)
https://gyazo.com/44b6d670af9d8108728363f270b2e727
1. 画像を1Mピクセルにリサイズ
2. VAEがあればlatent生成(refelence_latent)
3. テキスト+画像をQwen2.5 VLにわたす
画像のリサイズ処理が自動で入るので、生成する画像サイズ(latent_image)を1Mピクセル以外のものにすると意図しない画像になる可能性があります
Qwen-Image-Edit-2509
https://gyazo.com/cce4f5721d2ffc8e5ff45d9b88fda509
1. 画像を1Mピクセルにリサイズし、幅・高さが8の倍数になるよう丸めてlatent生成(refelence_latent)
2. 画像を384×384相当に縮小
3. system/user/assistant のLLaMA形式テンプレートにプロンプトを埋め込み
4. 2と3をを Qwen2.5-VL に入力する
後述のマルチリファレンス化の影響か、加工したい画像は「image1」「Picture 1」といった形で明示するほうが良いらしい
マルチリファレンス
https://gyazo.com/358c8441ff70ee58135d8340bd691200
勝手にリサイズ処理が入るので、latent_imageだけ意識すれば、他の画像はリサイズしなくて良いです
出力画像がズームする問題
なにをどうやっても防げないのでピクセルパーフェクトは諦めたほうがいいnomadoor.icon
1024×1024の正方形だけは歪まないので、本当に必要ならば正方形にpadding or cropするのが良いかな
プロンプトをVLMで最適化する
入力した編集指示を、Qwen-Image-Editが理解しやすいようにVLMに編集させます
TextEncodeQwenImageEditPlusノードには、これが内蔵されているので必要ない…ハズ
https://gyazo.com/bd3fa9b43a4861da4db4fe67ac932f91
上にはシステムプロンプトが入力されています
下に編集指示を書いてください
せっかく横にQwen2.5_VLがあるので使いたいんですけどね…nomadoor.icon
ただGGUF読み込もうとするとかなり骨が折れそうなのでVRAM富豪(16GB以上に権利あり)前提の構成にはなりそう… Qwen-Image-Lightning
Qwen-Image-Edit(-2509)用のlightning LoRAが出ました
モデル
https://gyazo.com/d507a4842df1deb961000244abca9a41
4steps / CFG 1.0
GGUF
カスタムノードのインストール
モデルの追加ダウンロード
🚨こだわりがなければQ4_K_Mをオススメします
code:models
📂ComfyUI/
└── 📂models/
├── 📂text_encoders/
│ ├── Qwen2.5-VL-7B-Instruct-.gguf
│ └── Qwen2.5-VL-7B-Instruct-mmproj-BF16.gguf
└── 📂unet/
└── Qwen_Image_Edit.gguf
Qwen-Image-Edit (旧)
https://gyazo.com/b4abd4422e36cb181d5593548536be4d
🟨テキストエンコーダーはfp8でも動きますが、出力が少しズームイン・アウトが発生するので、GGUFで合わせたほうが良いかも?nomadoor.icon
Qwen-Image-Edit-2509
https://gyazo.com/304258f039e00b7b98f3c951ebfd3061
複数要素を結合する場合