🦊Qwen-Image
Qwen-Imageは中国語・英語のテキストレンダリング能力に焦点を当てて開発された画像生成モデルです テキストエンコーダにQwen2.5-VLというT5とは比べ物にならないほど性能の高いVLMを使っているため、プロンプトへの理解度・忠実度がかなり高くなっています
参考
推奨解像度
1.5 ~ 1.8Mピクセル
1:1: 1328 x 1328
16:9: 1664 x 928
4:3: 1472 x 1104
3:2: 1584 x 1056
モデルのダウンロード
code:models
📂ComfyUI/
└── 📂models/
├── 📂diffusion_models/
│ └── qwen_image_(bf16 or fp8).safetensors
├── 📂text_encoders/
│ └── qwen_2.5_vl_7b_(fp8).safetensors
└── 📂vae/
└── qwen_image_vae.safetensors
text2image
https://gyazo.com/c616d93666ef99e2812d3db2a40d194a
GGUF
カスタムノード
モデルのダウンロード
code:model
📂ComfyUI/
└── 📂models/
├── 📂text_encoders/
│ └── Qwen2.5-VL-7B-Instruct-.gguf
└── 📂unet/
└── qwen-image-.gguf
https://gyazo.com/2321412b578aaf8bf1c4635c08c85d89
Lightning
8/4stepsで生成できるようにした蒸留モデルです
LoRAも出ているのでそちらを使います
モデルのダウンロード
https://gyazo.com/021df7ba0cdf8e6869809c633b9f7803
wip:現時点で上記ノードの互換性によるものかQwen-Image(Wanと互換性のあるVAE)の仕様によるものか未確認 その為か、HiDreamやWanで有効だったDistanceSamplerを使ってステップ数を減らしてお手軽に早くする…という手の効果が殆ど無い(Euler 20ステップとDistance 7ステップが殆ど同じ処理時間になる) ただし2025/08/10時点でDesktopの正式バージョンには対応していない、使うならベータ版の最新が必要