PixArt-Σ
https://gyazo.com/ab0fb8936b739b04c69ac3b9e7ceef6f
4K解像度の画像を直接生成できる拡散変換モデル(DiT)であるPixArt-Σを紹介する。 :(1) 高品質なトレーニングデータ:
PixArt-Σは、より高品質な画像データと、より正確で詳細な画像キャプションを組み込んでいます。
(2)効率的なトークン圧縮:
DiTフレームワークの中で、キーと値の両方を圧縮する新しいアテンションモジュールを提案し、効率を大幅に向上させ、超高解像度の画像生成を容易にします。これらの改良により、PixArt-Σは、SDXL(2.6Bパラメータ)やSD Cascade(5.1Bパラメータ)などの既存のテキスト画像拡散モデルよりも大幅に小さいモデルサイズ(0.6Bパラメータ)で、優れた画質とユーザープロンプトの忠実な実行を実現しています。