🦊CogVideoX
🏠 | 🦊雑に学ぶComfyUI
👈 |
👉 | 🦊CogVideoX image2video
CogVideoXはChatGLMやCogVLM等と同じ開発元から出ているオープンソースの動画生成モデルです
image2videoやControlNetなど、コミュニティによる改良が盛んなため、Soraから始まったDiT時代のAnimateDiffになるかもしれませんね
機能や性能が違う複数のモデルがあります
詳細は以下の表を参照
https://github.com/THUDM/CogVideo#model-introductionModel Introduction
table:CogVideoX
Model Name CogVideoX1.5-5B CogVideoX1.5-5B-I2V CogVideoX-2B CogVideoX-5B CogVideoX-5B-I2V
Release Date November 8, 2024 November 8, 2024 August 6, 2024 August 27, 2024 September 19, 2024
Video Resolution 1360 * 768 256 <=W<=1360 256 <=H<=768 W,H % 16 == 0 720 * 480 720 * 480 720 * 480
Prompt Language English
Prompt Token Limit 224 Tokens 226 Tokens 226 Tokens 226 Tokens 226 Tokens
Video Length 5 seconds or 10 seconds 6 seconds
Frame Rate 16 fps 8 fps 8 fps 8 fps 8 fps
🪢カスタムノード
https://github.com/kijai/ComfyUI-CogVideoXWrapperComfyUI-CogVideoXWrapper
CogVideoX 5b
https://gyazo.com/af5939c53f53d6a2bed40799bac2234f
cogvideox_5b.json
(Down)load CogVideo Modelノード
fp8_transformer → enable
enableにしないと4070Tiでは動かないnomadoor.icon
CogVideo Decodeノード
enable_vae_tiling → enable
同様にtilingしないと大変な時間がかかる
2bなら軽いけれど、生成される動画のクオリティがだいぶ落ちる
CogVideoX 5b GGUF
DiTということはGGUFにして軽量化することができます
https://gyazo.com/f2b32c7ab422140fd127b2bcfa19b93d
cogvideox_5b_gguf.json
(Down)load CogVideo GGUF Modelノード
モデルのロードはGGUF用ノードがありますが他は共通
サンプラーはノーマルと違ってCogVideoXDDIMを使用
どのサンプラーが使えるか比較する必要がある
あくまで参考ですが、RTX4070ti ノーマル5B/fp8が48フレーム生成に30分なのに対し、こちらは13分