UniWorld-V1
https://github.com/PKU-YuanGroup/UniWorld-V1PKU-YuanGroup/UniWorld-V1
https://arxiv.org/abs/2506.03147UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
tetx2image/画像編集/Image-to-Image Translationを一つのモデルで行う統合フレームワーク
https://gyazo.com/962930b005675522680427729d63d64d
BAGELやStep1X-Editは視覚特徴の取得にVAEを使っていたが、gpt-image-1の挙動を観察するとどうやらセマンティックエンコーダを使っているらしいため、VAEではなくVLM(Qwen2.5-VL)とSigLIPを用いて視覚特徴を取得する
2.7Mサンプルで学習したUniWorld-V1は、BAGEL(2665Mサンプルで学習)をはじめすべてのオープンソースモデルの性能を上回る
実装
https://github.com/judian17/ComfyUI-UniWorld-jd17judian17/ComfyUI-UniWorld-jd17 (画像編集部分のみ)