PiD
https://research.nvidia.com/labs/sil/projects/pid/assets/video/from_latent_to_pixel3_merged.mp4
https://research.nvidia.com/labs/sil/projects/pid/Project
https://arxiv.org/abs/2605.23902PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion
latent diffusion Modelのlaten decodeをVAEによる再構成ではなく、ピクセル拡散モデルによる生成として置き換えてしまう
中身はPixelDiTの4step蒸留モデル ?
副産物というか、最終画像の生成自体が生成タスクになるので、 512pxでサンプリングしたものを2x / 4xの解像度で出力したり、サンプリングを途中のステップでやめてピクセル化みたいなことができる
ライセンス
NSCLv1
ComfyUIコアに実装
https://github.com/Comfy-Org/ComfyUI/pull/14103feat: Support NVIDIA PixelDiT and PiD (CORE-201)
面白いけれど、単純にVAE Encode ≒ VAE Decodeじゃなくなるから、画像編集モデルとかだと、編集した場所以外も変わってしまいそうだなnomadoor.icon