PixelDiT
https://gyazo.com/ab80c596b2789a2b5fd23ac749e5c4ad
https://pixeldit.github.io/Project
https://github.com/NVlabs/PixelDiTNVlabs/PixelDiT
https://arxiv.org/abs/2511.20645PixelDiT: Pixel Diffusion Transformers for Image Generation
ピクセル拡散モデル
1024 × 1024pxをそのままピクセル空間で計算しようとするとattentionの計算が爆発する
そこで、PixelDiTではtransformer内部を2つの経路に分けている
https://gyazo.com/d6f64429ed5ec5e3201a9a2d1793b13f
The Patch-Level Pathway (DiT Blocks)
ノイズが加えられた入力画像をパッチに分割 する
16px × 16px の領域を1つのpatch tokenにする
1024画像なら 64×64 tokens
画像全体の意味・構図を見る
ので、attentionの計算は、(H / patch_size) × (W / patch_size) まで抑えされる
The Pixel-Level Pathway (PiT Blocks)
こちらは1pxを1つのpixel tokenとして扱う
attentionの前にpixel tokenをpatch単位で一時的に圧縮し、attention後にまたpixel tokenへ展開する。
DiT Blocksから来た Semantic Token を参考に細部を描き込む
ControlNet Tileを思い出す?nomadoor.icon
全体を見ながら描き直す