UniWorld-V1

tetx2image/画像編集/Image-to-Image Translationを一つのモデルで行う統合フレームワーク

https://gyazo.com/962930b005675522680427729d63d64d

BAGELやStep1X-Editは視覚特徴の取得にVAEを使っていたが、gpt-image-1の挙動を観察するとどうやらセマンティックエンコーダを使っているらしいため、VAEではなくVLM(Qwen2.5-VL)とSigLIPを用いて視覚特徴を取得する

2.7Mサンプルで学習したUniWorld-V1は、BAGEL(2665Mサンプルで学習)をはじめすべてのオープンソースモデルの性能を上回る

実装