Z-Image
https://gyazo.com/53abdef73d6c6eb35ed91fa0339739c2
計31.4万 H800 GPU 時間 / $630k 未満で完成
宝くじ当たったら1億でモデル作ろう()nomadoor.icon
https://gyazo.com/f04563c5f14100951005789463c58f39
https://gyazo.com/1c8fbc199b4078003f12d0e9fad4d35a
Qwen3-4B からのテキスト埋め込み
Flux VAE の画像潜在(noised / clean)
SigLIP2 のセマンティック埋め込み(Edit 用)
をそれぞれ 軽量なProcessorに通しS3-DiT バックボーンに流す S3-DiT(Scalable Single-Stream Multi-Modal Diffusion Transformer)
テキストも画像も編集参照も全部 1 本のトークン列にして、単一の巨大 Transformer で処理する
model zoo
https://gyazo.com/7f7e5182f8bd0f18db22a51d7392ec3f
8ステップで生成できる蒸留モデル
ライセンス