UniWorld-V1
https://github.com/PKU-YuanGroup/UniWorld-V1
PKU-YuanGroup/UniWorld-V1
https://arxiv.org/abs/2506.03147
UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
tetx2image/
画像編集
/
Image-to-Image Translation
を一つのモデルで行う統合フレームワーク
https://gyazo.com/962930b005675522680427729d63d64d
BAGEL
や
Step1X-Edit
は視覚特徴の取得に
VAE
を使っていたが、
gpt-image-1
の挙動を観察するとどうやらセマンティックエンコーダを使っているらしいため、VAEではなくVLM(
Qwen2.5-VL
)と
SigLIP
を用いて視覚特徴を取得する
2.7Mサンプルで学習したUniWorld-V1は、BAGEL(2665Mサンプルで学習)をはじめすべてのオープンソースモデルの性能を上回る
実装
https://github.com/judian17/ComfyUI-UniWorld-jd17
judian17/
ComfyUI-UniWorld-jd17
(画像編集部分のみ)