Qwen-Image
https://gyazo.com/95186b7233b1ea31efc546ce8e6de3c6
https://qwenlm.github.io/blog/qwen-image/Project
https://github.com/QwenLM/Qwen-ImageQwenLM/Qwen-Image
https://huggingface.co/Qwen/Qwen-ImageQwen/Qwen-Image
https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdfQwen-ImageTechnicalReport
テキストレンダリングと画像編集能力に焦点を当てた画像生成モデル
テキストエンコーダとしてQwen2.5-VLを使用
画像編集では特徴量の取得にも使用
Wan-2.1のVAEベース
テキストや細部の再現力を上げるためにデコーダ部分のみファインチューニング
MMDiT
MSRoPE
https://gyazo.com/3ae4bcc9209873587978183bb1273055
テキストは画像の対角線に沿って連結されていると概念化されています。この設計により、MSRoPEは、テキスト側で1D-RoPEとの機能的同等性を維持しながら、画像側で解像度スケーリングの利点を活用できるため、テキストの最適な位置エンコーディングを決定する必要がなくなります。
cf. Scaling RoPE
モデルが複数の画像を区別できるようにするために、単一の画像内の画像パッチを見つけるために使用される高さと幅に加えて、追加のフレーム次元を導入することでMSRoPEを拡張します
https://huggingface.co/city96/Qwen-Image-ggufcity96/Qwen-Image-gguf
関連
Qwen-VLo