PiD - work4ai

PiD

https://research.nvidia.com/labs/sil/projects/pid/assets/video/from_latent_to_pixel3_merged.mp4

latent diffusion Modelのlaten decodeをVAEによる再構成ではなく、ピクセル拡散モデルによる生成として置き換えてしまう

中身はPixelDiTの4step蒸留モデル ?

副産物というか、最終画像の生成自体が生成タスクになるので、 512pxでサンプリングしたものを2x / 4xの解像度で出力したり、サンプリングを途中のステップでやめてピクセル化みたいなことができる

ライセンス

ComfyUIコアに実装

https://github.com/Comfy-Org/ComfyUI/pull/14103feat: Support NVIDIA PixelDiT and PiD (CORE-201)

面白いけれど、単純にVAE Encode ≒ VAE Decodeじゃなくなるから、画像編集モデルとかだと、編集した場所以外も変わってしまいそうだなnomadoor.icon