Z-Image
https://gyazo.com/53abdef73d6c6eb35ed91fa0339739c2
https://tongyi-mai.github.io/Z-Image-homepage/Project
https://github.com/Tongyi-MAI/Z-ImageTongyi-MAI/Z-Image
6BパラメータのDiT系画像生成モデル
計31.4万 H800 GPU 時間 / $630k 未満で完成
宝くじ当たったら1億でモデル作ろう()nomadoor.icon
AI ArenaでOSSとしては最高
https://gyazo.com/f04563c5f14100951005789463c58f39
https://gyazo.com/1c8fbc199b4078003f12d0e9fad4d35a
Qwen3-4B からのテキスト埋め込み
Flux VAE の画像潜在(noised / clean)
SigLIP2 のセマンティック埋め込み(Edit 用)
をそれぞれ 軽量なProcessorに通しS3-DiT バックボーンに流す
S3-DiT
テキストも画像も編集参照も全部 1 本のトークン列にして、単一の巨大 Transformer で処理する
model zoo
Z-Image-Base (WIP)
https://huggingface.co/Tongyi-MAI/Z-Image-TurboZ-Image-Turbo
8ステップで生成できる蒸留モデル
Z-Image-Edit (WIP)
ライセンス
Apache 2.0