Z-Image
https://gyazo.com/53abdef73d6c6eb35ed91fa0339739c2
https://tongyi-mai.github.io/Z-Image-blog/Project
https://arxiv.org/abs/2511.22699 Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
https://github.com/Tongyi-MAI/Z-ImageTongyi-MAI/Z-Image
https://modelscope.cn/studios/Tongyi-MAI/Z-Image-Gallery/summary Gallery
6BパラメータのDiT系画像生成モデル
計31.4万 H800 GPU 時間 / $630k 未満で完成
宝くじ当たったら1億でモデル作ろう()nomadoor.icon
Alibaba AI ArenaでOSSとしては最高
https://gyazo.com/f04563c5f14100951005789463c58f39
https://gyazo.com/1c8fbc199b4078003f12d0e9fad4d35a
Qwen3-4B からのテキスト埋め込み
Flux VAE の画像潜在(noised / clean)
SigLIP2 のセマンティック埋め込み(Edit 用)
をそれぞれ 軽量なProcessorに通しS3-DiT バックボーンに流す
S3-DiT(Scalable Single-Stream Multi-Modal Diffusion Transformer)
テキストも画像も編集参照も全部 1 本のトークン列にして、単一の巨大 Transformer で処理する
model zoo
https://gyazo.com/7f7e5182f8bd0f18db22a51d7392ec3f
https://huggingface.co/Tongyi-MAI/Z-ImageZ-Image
https://huggingface.co/Tongyi-MAI/Z-Image-TurboZ-Image-Turbo
8ステップで生成できる蒸留モデル
Z-Image-Edit (WIP)
ライセンス
Apache 2.0