Z-Image - work4ai

Z-Image

https://gyazo.com/53abdef73d6c6eb35ed91fa0339739c2

https://arxiv.org/abs/2511.22699 Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

計31.4万 H800 GPU 時間 / $630k 未満で完成

宝くじ当たったら1億でモデル作ろう()nomadoor.icon

Alibaba AI ArenaでOSSとしては最高

https://gyazo.com/f04563c5f14100951005789463c58f39

https://gyazo.com/1c8fbc199b4078003f12d0e9fad4d35a

Qwen3-4B からのテキスト埋め込み

Flux VAE の画像潜在（noised / clean）

SigLIP2 のセマンティック埋め込み（Edit 用）

をそれぞれ軽量なProcessorに通しS3-DiT バックボーンに流す

S3-DiT(Scalable Single-Stream Multi-Modal Diffusion Transformer)

テキストも画像も編集参照も全部 1 本のトークン列にして、単一の巨大 Transformer で処理する

model zoo

https://gyazo.com/7f7e5182f8bd0f18db22a51d7392ec3f

8ステップで生成できる蒸留モデル

ライセンス