Tuna-2 - work4ai

Tuna-2

https://tuna-ai.org/tuna-2/Project

https://arxiv.org/abs/2604.24763Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

https://github.com/facebookresearch/tuna-2facebookresearch/tuna-2

画像理解・画像生成を両方行う統一拡散モデル

従来のUnifiedモデルは、理解と生成で画像表現が分かれている

そこで、画像を最初からraw pixel patchとして扱い、画像理解のためのvision encoderを使わない

其の上で生成はVAEを使わないピクセル拡散モデル

https://gyazo.com/510c35bf87a1f465b7b3a415e758c399