Tuna-2
https://tuna-ai.org/tuna-2/Project
https://arxiv.org/abs/2604.24763Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation
https://github.com/facebookresearch/tuna-2facebookresearch/tuna-2
画像理解・画像生成を両方行う統一拡散モデル
従来のUnifiedモデルは、理解と生成で画像表現が分かれている
そこで、画像を最初からraw pixel patchとして扱い、画像理解のためのvision encoderを使わない
其の上で生成はVAEを使わないピクセル拡散モデル
https://gyazo.com/510c35bf87a1f465b7b3a415e758c399
#Meta