Qwen-Image

https://gyazo.com/95186b7233b1ea31efc546ce8e6de3c6

テキストエンコーダとしてQwen2.5-VLを使用

画像編集では特徴量の取得にも使用

Wan-2.1のVAEベース

テキストや細部の再現力を上げるためにデコーダ部分のみファインチューニング

https://gyazo.com/3ae4bcc9209873587978183bb1273055

テキストは画像の対角線に沿って連結されていると概念化されています。この設計により、MSRoPEは、テキスト側で1D-RoPEとの機能的同等性を維持しながら、画像側で解像度スケーリングの利点を活用できるため、テキストの最適な位置エンコーディングを決定する必要がなくなります。

モデルが複数の画像を区別できるようにするために、単一の画像内の画像パッチを見つけるために使用される高さと幅に加えて、追加のフレーム次元を導入することでMSRoPEを拡張します

2025/12/31