CoMPaSS
https://gyazo.com/810b20008c8faa8470ea3b598fb4a630
https://compass.blurgy.xyz/Project
https://github.com/blurgyy/CoMPaSSblurgyy/CoMPaSS
https://arxiv.org/abs/2412.13195CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models
従来の画像生成モデルで曖昧になりがちだった空間的位置関係を明確に制御できるようにするためのフレームワーク
Spatial Constraints-Oriented Pairing (SCOP)
既存のデータセットはキャプションと実際の位置関係が不一致しているものが大量に含まれているため、アノテーションするエンジン
TENOR
既存のテキストエンコーダ(CLIP L,T5-XXL etc.)は上下左右といった単純な位置関係ですら理解していない
https://gyazo.com/8f5f7f5d041f7a2b5e14804336a76545
TENORはプロンプトのトークン順序を位置エンコーディングで数値化し「A left B」と「B left A」を区別可能にし、SCOPが提供する空間的に正しいデータで学習したモデルがその信号を「左/右」の配置として正しく解釈する