Step-Video-T2V
https://github.com/stepfun-ai/Step-Video-T2V
stepfun-ai
/
Step-Video-T2V
https://huggingface.co/stepfun-ai/stepvideo-t2v
stepfun-ai
/
stepvideo-t2v
https://huggingface.co/stepfun-ai/stepvideo-t2v-turbo
stepfun-ai/
stepvideo-t2v-turbo
https://arxiv.org/abs/2502.10248
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model
https://yuewen.cn/videos
跃问
300億のパラメータ・最大204フレーム/544×992ピクセルのビデオを生成する
動画生成モデル
VideoVAE
RGB動画を16×16の空間圧縮および8倍の時間圧縮
Bilingual Text Encoder
Hunyuan-CLIP
×
Step-LLM
DiT
動画ベースの
DPO
30B(FP16/BF16で≒VRAM60GB)は流石にワロタ(FP8でも≒30GB相当なので笑うしかできない)
morisoba65536.icon
text2video