🦊Wan2.2 - work4ai

🦊Wan2.2

🏠 | 🦊雑に学ぶComfyUI

👈 | 🦊Wan2.1

👉 |

Wan2.1の正当後継モデルです。

性能を上げるためにモデルサイズを大きくしたり、圧縮率の高いVAEを使ったりしていますが基本的なアーキテクチャは同じです

参考

https://docs.comfy.org/tutorials/video/wan/wan2_2ComfyUI公式Doc

https://alidocs.dingtalk.com/i/nodes/EpGBa2Lm8aZxe5myC99MelA2WgN7R35yWan公式プロンプトガイド

14Bモデル

Wan2.2では性能を上げるためより大きなモデルになりましたが、計算の負荷をWan2.1のときと同様レベルに抑えるため、サンプリング前半では大まかな形を生成するモデル、後半では細部を作り込むモデルを使う二段階のパイプラインになっています

推奨設定値

解像度 / 480P or 720P

16fps / 最大5s (81フレーム)

16fpsにはなっているが、"16fpsのスローモーション動画"として出力されることが多いため、あまりこだわらずに24fpsにしたりコマ落としをしたりすると良いと思うnomadoor.icon

wan2.2は24fps(121フレーム)ではなかったっけ？morisoba65536.icon

24fpsで学習されてるのは5Bだけで、14Bは結局16fpsっぽいですねnomadoor.icon

公式HuggingFace.iconの記述では5bしか触れられてないこと(A14Bのフレームレート不記載)や、上記挙動からするとA14Bは24fpsトレーニングが中途半端にされてる感じっぽいね…morisoba65536.icon

https://www.reddit.com/r/StableDiffusion/comments/1n3qns1/wan_22_how_many_highsteps_are_needed_a_simple/スローモーション化の原因はHigh noiseのstep数の比率かも知れない

text2video

モデルのダウンロード

https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/diffusion_models/wan2.2_t2v_high_noise_14B_fp8_scaled.safetensorswan2.2_t2v_high_noise_14B_fp8_scaled.safetensors

https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/diffusion_models/wan2.2_t2v_low_noise_14B_fp8_scaled.safetensorswan2.2_t2v_low_noise_14B_fp8_scaled.safetensors

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encodersumt5_xxl (fp16 or fp8).safetensors

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensorswan_2.1_vae.safetensors

code:models

📂ComfyUI/

└── 📂models/

├── 📂diffusion_models/

│ ├── wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors

│ └── wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors

├── 📂text_encoders/

│ └── umt5_xxl (fp16 or fp8).safetensors

└── 📂vae/

└── wan_2.1_vae.safetensors

workflow

https://gyazo.com/ad9b99051be221881b5ea6c858f10831

Wan2.2_text2video_14B.json

20ステップの内、前半10ステップをhigh_noiseモデルで、後半10ステップをlow_noiseモデルで処理します

KSampler Advancedノードのパラメータについてはこちら → KSamplerAdvancedノード

テキストエンコーダ、VAEはWan2.1と同じです

high_noiseモデル、low_noiseモデル共に基本的なモデルのデータ的な構造はWan2.1と同じようなのでWan2.1用のLoraが有効…に効くこともあるようです

SDXLを使ってる人ならPony用のLoraがIllustriousにも効く事があるような感じ、と言えばなんとなくわかるかもしれません。効き具合はまちまちなので当てにはしすぎない方が良いのと副作用(フレームレートが安定しないなど)が起きることもあるので使うならダメ元で。

モーションメインのLoraでない(キャラや画風等)ならlow_noiseモデルのみに適用すると比較的副作用少なく使用できます。

image2video

モデルの追加ダウンロード

https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/diffusion_models/wan2.2_i2v_high_noise_14B_fp8_scaled.safetensorswan2.2_i2v_high_noise_14B_fp8_scaled.safetensors

https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/diffusion_models/wan2.2_i2v_low_noise_14B_fp8_scaled.safetensorswan2.2_i2v_low_noise_14B_fp8_scaled.safetensors

code:models

📂ComfyUI/

└── 📂models/

└─── 📂diffusion_models/

├── wan2.2_i2v_high_noise_14B_fp8_scaled.safetensors

└── wan2.2_i2v_low_noise_14B_fp8_scaled.safetensors

workflow

https://gyazo.com/5660f34d3fd82d72153b37db003d98fa

Wan2.2_image2video_14B.json

Wan2.1と同様WanImageToVideoノードでスタート画像を入力します

Wan2.2ではClip Visionによる画像情報の埋め込みは必要ありません

FLF2V

Wna2.2のimage2videoモデルはFLF2Vにも対応しているらしく、WanFirstLastFrameToVideoノードにつなぐだけでgenerative interpolationができます

別でFLF2Vモデルが出る…ことはあるんでしょうか

https://gyazo.com/864831e3e307a134a74bc42c48b0bed2

Wan2.2_image2video_FLF2V_14B.json

5Bモデル

text2video/image2video両方を同一のモデルで対応します

また、より圧縮率の高いVAEやパッチ化等の処理を加えることで少ない計算量で動画を生成します

Wan2.1の14Bと1.3Bのような関係性ではなく、より根本から違うので少し注意

推奨設定値

解像度 / 720P

24fps / 最大5s (121フレーム)

モデルのダウンロード

https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/diffusion_models/wan2.2_ti2v_5B_fp16.safetensorswan2.2_ti2v_5B_fp16.safetensors

https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/vae/wan2.2_vae.safetensorswan2.2_vae.safetensors

text2video

https://gyazo.com/167e6339de10602a8d3c5af9dc4c752e

Wan2.2_text2video_5B.json

🟥wan2.2_vaeを使用

text2videoでもWan22ImageToVideoLatentノードを使う必要がある(?)

image2video

https://gyazo.com/79c9d851847801e276073863d349b43a

Wan2.2_image2video_5B.json

GGUF

カスタムノード

https://github.com/city96/ComfyUI-GGUFComfyUI-GGUF

モデルのダウンロード

https://huggingface.co/bullerwins/Wan2.2-T2V-A14B-GGUF/tree/mainWan2.2-T2V-A14B-GGUF

https://huggingface.co/bullerwins/Wan2.2-I2V-A14B-GGUF/tree/mainWan2.2-I2V-A14B-GGUF

https://huggingface.co/QuantStack/Wan2.2-TI2V-5B-GGUF/tree/mainWan2.2-TI2V-5B-GGUF

code:model

📂ComfyUI/

└── 📂models/

└── 📂unet/

└── Wan2.2-.gguf

workflow

https://gyazo.com/893acc855865dc932778717e8428cf33

Wan2.2_text2video_14B_GGUF.json