🦊PixelDiT / PiD
👈 |
👉 |
参考
Nvidia製のピクセル拡散モデル
モデルのダウンロード
diffusion_models
text_encoders
code:text
📂ComfyUI/
└── 📂models/
├── 📂diffusion_models/
│ └── pixeldit_1300m_1024px_bf16.safetensors
└── 📂text_encoders/
└── gemma_2_2b_it_elm_bf16.safetensors
text2image
https://gyazo.com/fd716c0bb5f65a54aad3363c31da7d15
PixelDiTを活用して、既存latent diffusion モデルのVAE decodeを肩代わりする(ついでにアップスケールする)
4ステップモデル
モデルのダウンロード
VAE / latent空間に合わせて適切なPiDを選ぶ (対応しているモデルしか使えない)
1024_to_4096 は、PiDに1024pxの画像を入れて、4096pxで出力させると上手くいくよ、という意味
SDXL用PiD
Qwen-Image用PiD
Flux1用PiD
e.g. Z-Image / Z-Image-Turbo
Flux2用PiD
e.g. Flux.2
code:models
📂ComfyUI/
└── 📂models/
└── 📂diffusion_models/
├── pid_flux1_512_to_2048_4step_bf16.safetensors
├── pid_flux1_1024_to_4096_4step_bf16.safetensors
├── pid_flux2_512_to_2048_4step_bf16.safetensors
└── pid_flux2_1024_to_4096_4step_bf16.safetensors
Z-Image-Turbo_PiD_ 4k
https://gyazo.com/be589a49f195194b86b2ccef61cdc250
Z-Imageのlatentをデコードせずに PiD Conditioning に接続する
PiDでの生成サイズは、モデルに合わせてZ-Imageの生成サイズから拡大させる
今回は 1024_to_4096 を使ったので、4倍に
OOMする場合、もしくは縦長・横長画像で出力が荒くなったときに使う