PixelDiT

https://gyazo.com/ab80c596b2789a2b5fd23ac749e5c4ad

1024 × 1024pxをそのままピクセル空間で計算しようとするとattentionの計算が爆発する

そこで、PixelDiTではtransformer内部を2つの経路に分けている

https://gyazo.com/d6f64429ed5ec5e3201a9a2d1793b13f

The Patch-Level Pathway (DiT Blocks)

ノイズが加えられた入力画像をパッチに分割する

16px × 16px の領域を1つのpatch tokenにする

1024画像なら 64×64 tokens

画像全体の意味・構図を見る

ので、attentionの計算は、(H / patch_size) × (W / patch_size) まで抑えされる

The Pixel-Level Pathway (PiT Blocks)

こちらは1pxを1つのpixel tokenとして扱う

attentionの前にpixel tokenをpatch単位で一時的に圧縮し、attention後にまたpixel tokenへ展開する。

DiT Blocksから来た Semantic Token を参考に細部を描き込む

ControlNet Tileを思い出す？nomadoor.icon

全体を見ながら描き直す