🦊Wan2.2
🏠 | 🦊雑に学ぶComfyUI
👈 | 🦊Wan2.1
👉 |
Wan2.1の正当後継モデルです。
性能を上げるためにモデルサイズを大きくしたり、圧縮率の高いVAEを使ったりしていますが基本的なアーキテクチャは同じです
参考
https://docs.comfy.org/tutorials/video/wan/wan2_2ComfyUI公式Doc
https://alidocs.dingtalk.com/i/nodes/EpGBa2Lm8aZxe5myC99MelA2WgN7R35yWan公式プロンプトガイド
14Bモデル
Wan2.2では性能を上げるためより大きなモデルになりましたが、計算の負荷をWan2.1のときと同様レベルに抑えるため、サンプリング前半では大まかな形を生成するモデル、後半では細部を作り込むモデルを使う二段階のパイプラインになっています
推奨設定値
解像度 / 480P or 720P
16fps / 最大5s (81フレーム)
16fpsにはなっているが、"16fpsのスローモーション動画"として出力されることが多いため、あまりこだわらずに24fpsにしたりコマ落としをしたりすると良いと思うnomadoor.icon
wan2.2は24fps(121フレーム)ではなかったっけ?morisoba65536.icon
24fpsで学習されてるのは5Bだけで、14Bは結局16fpsっぽいですねnomadoor.icon
公式HuggingFace.iconの記述では5bしか触れられてないこと(A14Bのフレームレート不記載)や、上記挙動からするとA14Bは24fpsトレーニングが中途半端にされてる感じっぽいね…morisoba65536.icon
https://www.reddit.com/r/StableDiffusion/comments/1n3qns1/wan_22_how_many_highsteps_are_needed_a_simple/スローモーション化の原因はHigh noiseのstep数の比率かも知れない
text2video
モデルのダウンロード
https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/diffusion_models/wan2.2_t2v_high_noise_14B_fp8_scaled.safetensorswan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/diffusion_models/wan2.2_t2v_low_noise_14B_fp8_scaled.safetensorswan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encodersumt5_xxl (fp16 or fp8).safetensors
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensorswan_2.1_vae.safetensors
code:models
📂ComfyUI/
└── 📂models/
├── 📂diffusion_models/
│ ├── wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
│ └── wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
├── 📂text_encoders/
│ └── umt5_xxl (fp16 or fp8).safetensors
└── 📂vae/
└── wan_2.1_vae.safetensors
workflow
https://gyazo.com/ad9b99051be221881b5ea6c858f10831
Wan2.2_text2video_14B.json
20ステップの内、前半10ステップをhigh_noiseモデルで、後半10ステップをlow_noiseモデルで処理します
KSampler Advancedノードのパラメータについてはこちら → KSamplerAdvancedノード
テキストエンコーダ、VAEはWan2.1と同じです
high_noiseモデル、low_noiseモデル共に基本的なモデルのデータ的な構造はWan2.1と同じようなのでWan2.1用のLoraが有効…に効くこともあるようです
SDXLを使ってる人ならPony用のLoraがIllustriousにも効く事があるような感じ、と言えばなんとなくわかるかもしれません。効き具合はまちまちなので当てにはしすぎない方が良いのと副作用(フレームレートが安定しないなど)が起きることもあるので使うならダメ元で。
モーションメインのLoraでない(キャラや画風等)ならlow_noiseモデルのみに適用すると比較的副作用少なく使用できます。
image2video
モデルの追加ダウンロード
https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/diffusion_models/wan2.2_i2v_high_noise_14B_fp8_scaled.safetensorswan2.2_i2v_high_noise_14B_fp8_scaled.safetensors
https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/diffusion_models/wan2.2_i2v_low_noise_14B_fp8_scaled.safetensorswan2.2_i2v_low_noise_14B_fp8_scaled.safetensors
code:models
📂ComfyUI/
└── 📂models/
└─── 📂diffusion_models/
├── wan2.2_i2v_high_noise_14B_fp8_scaled.safetensors
└── wan2.2_i2v_low_noise_14B_fp8_scaled.safetensors
workflow
https://gyazo.com/5660f34d3fd82d72153b37db003d98fa
Wan2.2_image2video_14B.json
Wan2.1と同様WanImageToVideoノードでスタート画像を入力します
Wan2.2ではClip Visionによる画像情報の埋め込みは必要ありません
FLF2V
Wna2.2のimage2videoモデルはFLF2Vにも対応しているらしく、WanFirstLastFrameToVideoノードにつなぐだけでgenerative interpolationができます
別でFLF2Vモデルが出る…ことはあるんでしょうか
https://gyazo.com/864831e3e307a134a74bc42c48b0bed2
Wan2.2_image2video_FLF2V_14B.json
5Bモデル
text2video/image2video両方を同一のモデルで対応します
また、より圧縮率の高いVAEやパッチ化等の処理を加えることで少ない計算量で動画を生成します
Wan2.1の14Bと1.3Bのような関係性ではなく、より根本から違うので少し注意
推奨設定値
解像度 / 720P
24fps / 最大5s (121フレーム)
モデルのダウンロード
https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/diffusion_models/wan2.2_ti2v_5B_fp16.safetensorswan2.2_ti2v_5B_fp16.safetensors
https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/vae/wan2.2_vae.safetensorswan2.2_vae.safetensors
text2video
https://gyazo.com/167e6339de10602a8d3c5af9dc4c752e
Wan2.2_text2video_5B.json
🟥wan2.2_vaeを使用
text2videoでもWan22ImageToVideoLatentノードを使う必要がある(?)
image2video
https://gyazo.com/79c9d851847801e276073863d349b43a
Wan2.2_image2video_5B.json
GGUF
カスタムノード
https://github.com/city96/ComfyUI-GGUFComfyUI-GGUF
モデルのダウンロード
https://huggingface.co/bullerwins/Wan2.2-T2V-A14B-GGUF/tree/mainWan2.2-T2V-A14B-GGUF
https://huggingface.co/bullerwins/Wan2.2-I2V-A14B-GGUF/tree/mainWan2.2-I2V-A14B-GGUF
https://huggingface.co/QuantStack/Wan2.2-TI2V-5B-GGUF/tree/mainWan2.2-TI2V-5B-GGUF
code:model
📂ComfyUI/
└── 📂models/
└── 📂unet/
└── Wan2.2-.gguf
workflow
https://gyazo.com/893acc855865dc932778717e8428cf33
Wan2.2_text2video_14B_GGUF.json