🦊Wan2.1
参考
推奨設定値
解像度
Wan2.1-T2V-14B : 480P/720P
Wan2.1-T2V-1.3B : 480P(720Pも生成できるが学習データが少ない)
最大フレーム数
81f (5秒 × 16fps + 1)
モデルのダウンロード
PCスペックに合わせて選ぶ
性能順 : fp16>bf16 > fp8_scaled > fp8_e4m3fn
code:model
📂ComfyUI/
└──📂models/
├── 📂diffusion_models/
│ └── wan2.1_t2v_(1.3B or 14B).safetensors
├── 📂text_encoders/
│ └── umt5_xxl (fp16 or fp8).safetensors
└── 📂vae/
└── wan_2.1_vae.safetensors
text2video
https://gyazo.com/8d830d2e2fc60c771ff35473081d4525
【ちょっと脱線】生成動画の品質が上がるかもしれない技術達
https://gyazo.com/382faca5b4a827fe3ae6d8b462259391
通常はDiTのすべての層に一括でCFGを適用しますが、それだと強くかかりすぎるため後半の層はCFGをオフにしてみようというものです
一般的に9,10層をスキップすると良い結果になるとされています
計算コストが少々上がります
ChatGPT.iconUNet(Denoiser) の出力特徴マップに対し、別途計算した 時系列注意重み を乗算的に適用し、時間的一貫性を強化するためのものです
🤔🤤nomadoor.icon
CFGが逆に誤った方向に誘導することがあるため、序盤だけCFGを無効にします
計算コストは変わりません
https://gyazo.com/e590874c688541d13542a120b547b160https://gyazo.com/a8baeb7e7e64eceb27f4af7e1cab2cc6
なし / あり
image2video
モデルの追加ダウンロード
code:model
ComfyUI/
└── models/
├── clip_vision/
│ └── clip_vision_h.safetensors
└── diffusion_models/
└── wan2.1_i2v_(480p or 720p)_14B.safetensors
workflow
https://gyazo.com/52a23f58dae13df7fdecb65c670e534b
モデル (好きなのどうぞ)
workflow
https://gyazo.com/13a1b8bae83fb49d61911b8fc9ce0abd
FLF2V (generative interpolation)
モデルの追加ダウンロード
$ ComfyUI/models/diffusion_models/wan2.1_flf2v_720p_14B_(fp16 or fp8).safetensors
workflow
https://gyazo.com/d437c38b1eb209c6b12122f196b0d300
GGUF
カスタムノード
モデルのダウンロード
code:model
ComfyUI/
└── models/
└── unet/
└── Wan2.1-.gguf
workflow
https://gyazo.com/41664eeaeb78fc554cd780fe563b4551
image2video
🟪Load Diffusion Modelノードでモデル読み込み
CausVid LoRA
CausVidは蒸留したモデルで、4~6stepsと高速で生成できるようにするものです こちらはそのLoRA版
モデルのダウンロード
https://gyazo.com/834efffca0c22e1ae91a9cf67388d077
🟪LoRAモデルとしてCausVidを読み込み
生成される動画に動きが無くなったらstrengthを徐々に下げる
改良版のv1.5/v2がありますが、それぞれ上手く動作するパラメータが全然違うので使用にはご注意を
推奨step数は4 ~ 6 / CFGは1.0
teacacheのようなキャッシュを使うものやSkipLayerGuidance、CFG-Zero*といったレイヤーをいじる系とは併用できません
Self Forcing
リアルタイムで動画生成するための技術ですが、ComfyUIではCausVidと同様、数ステップ推論のために使います
https://gyazo.com/b1e8add7ed07ad2e9cdee74d37c411b0
NAG
CausVidもSelf ForcingもCFGを蒸留することで推論速度を上げています。それ故、CFGが1に固定、つまりNegative Promptが使えなくなります
NAGはCFGと同じ計算をCFGとは違う場所ですることで、蒸留したモデルであってもNegative Promptの動作を再現します 二倍まではいきませんが、推論時間は多少増えます
🪢ComfyUIカスタムノード
https://gyazo.com/4c012c03dba9d34914c077109fbfa529