Wan2.1 - work4ai

Wan2.1

https://gyazo.com/706c07816d81a12cd0ad74f520ae4715

https://wanxai.com/

https://github.com/Wan-Video/Wan2.1Wan-Video/Wan2.1

https://github.com/envy-ai/Wan2.1-quantized/tree/optimized量子化(nf4)向け(通常のモデルをロード時に変換してる？)フォーク

https://github.com/deepbeepmeep/Wan2GP低VRAMユーザー向けfork(TeaCache対応)

https://huggingface.co/Wan-AI/Wan2.1-T2V-14BWan-AI/Wan2.1-T2V-14B

https://huggingface.co/Wan-AI/Wan2.1-T2V-1.3BWan-AI/Wan2.1-T2V-1.3B

https://huggingface.co/Wan-AI/Wan2.1-I2V-14B-720PWan-AI/Wan2.1-I2V-14B-720P

https://huggingface.co/Wan-AI/Wan2.1-I2V-14B-480PWan-AI/Wan2.1-I2V-14B-480P

https://huggingface.co/spaces/Wan-AI/Wan2.1Demo

結構珍しい非蒸留なモデルである

上記のオリジナルのモデルはComfyUIでは直接使わないので注意(後述の専用リポジトリから落としてくる)

まだ環境構築の過渡期と言うこともあるのか標準ノード、ComfyUI標準+GGUF量子化、kijaiノードとデファクトがいまいち定まりきっていないので情報収集で迷子になりやすいかもしれない。

2025/03/11現在時点では、ゆるくお試しなら標準+1.3bかgguf、速度や機能を求めるならkijaiを試す感じかmorisoba65536.icon

有志による量子化など

https://huggingface.co/city96/Wan2.1-T2V-14B-ggufcity96/Wan2.1-T2V-14B-gguf

https://huggingface.co/city96/Wan2.1-I2V-14B-480P-ggufcity96/Wan2.1-I2V-14B-480P-gguf

https://huggingface.co/city96/Wan2.1-I2V-14B-720P-ggufcity96/Wan2.1-I2V-14B-720P-gguf

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_modelsbf16/fp8モデル(ComfyUI標準ノード用)

標準ノードで使うTextEncoderは後述のkijai版と互換性がないため注意(U-Net相当の拡散モデルは共有できる)

https://comfyanonymous.github.io/ComfyUI_examples/wan/FP16(とfp8 scaled)が増えた。

https://x.com/kohya_tech/status/1899419038197141719fp8 scaledは動きや構図などがほぼBF16と同じになるようだ

FP16モデルのほうがBF16より品質が良いといっているがマ？morisoba65536.icon

標準ノード版でもComfyUI-TeaCacheに対応した

ついでにkijai氏のKJNodeでTeaCasheに対応した

ComfyUI-KJNodes版のSkipLayerGuidanceを使うにはKJNode版のTeaCacheを使う必要があるので注意(CompileModelはKJNode版でなくても良い)

Native版BlockwSap

https://github.com/orssorbit/ComfyUI-wanBlockswaporssorbit/ComfyUI-wanBlockswap

https://github.com/CStriker/ComfyUI-wvBlockswapCStriker/ComfyUI-wvBlockswap

kijai氏による高速なラッパーノード(TeaCache対応)

https://huggingface.co/Kijai/WanVideo_comfy/tree/mainhttps://github.com/kijai/ComfyUI-WanVideoWrapperkijai/ComfyUI-WanVideoWrapper

https://github.com/kijai/ComfyUI-WanVideoWrapper/blob/main/example_workflows/wanvideo_vid2vid_example_01.json公式では未対応のvideo2videoに対応してる

TextEncoderに標準ノードとの互換性がないため注意、標準版と両方使うなら両方必要

基本的にfloat8_e4m3モデルだが、ComfyUI公式のモデルと違いwait以外はFP32で保持している分おそらく精度はこっちのほうが高い

ComfyUI版のfloat8_e4m3モデルはすべての層をfloat8_e4m3で保存されている

動画生成モデル

Apache2.0、image2video、video2video、text2video、txt2img、video2audio全部のせとかだいぶ強いこと書いてるmorisoba65536.icon

ただし現在ComfyUIで正式に対応してるのはtext2videoとimage2videoのみ。

txt2vidとimage2videoは別モデルが対応している(モデルが2ついる)

ただしレイヤーは互換性があるためt2vで学習したLoraはi2vでも使える模様

一応1フレーム出力することでComfyUIでもtext2imageは普通に出せる(オリジナルのコードのt2iと同じタイプの処理になるのかは不明)

https://civitai.com/models/1376578/wanrestyledfirstframeworkflow有志によりv2vは実装されていっている…

https://civitai.com/models/1374287/comfyui-wanvideostartendframesキーフレームアニメーションも有志によって実装された

https://www.reddit.com/r/StableDiffusion/comments/1jirb3r/wan_21_begin_and_ending_frame_feature_having/公式にも出る可能性が出て来た

大きい方で14Bなので量子化対応すればFlux.1の動く環境なら動くはず。

fp8モデルもあるのでVRAM16GB環境なら動かすことはそこまで難しくはない

そっちが厳しそうなら1.3Bモデルも有るようだ。

動画でファインチューニングした方が、ID・空間の一貫性も学習させられるので、計算コストだけどうにかなれば、これから出てくるモデルは動画生成ベースが主流になるのかなnomadoor.icon

中国語モデルだからか漢字も書けるみたいね…(流石に全文字は学習してないだろうけど)morisoba65536.icon

出ることは出るがやや崩れがち、FLUX.1レベルのはっきりした文字を期待するのは難しいので割と雰囲気文字(漢字が出るのはそれでもとてもレアな機能だが)

文字数が少なければ(簡単な文字なら)割とちゃんと出るようだ。

軽く調べた感じ、英単語で約3単語位を目安にしたほうが文字は安定する感じ、Flux.1と同じ感覚で文章出させようとするとほぼ崩壊する。(勝手に文章変えたり単語スキップしたり混ざったりする)

TextEncoderはumT5と言う多言語対応モデルがベースとなっている。

その為か、特別には学習してないはずだが日本語でプロンプトが割と通る。

ただ、t2iでは割と通るもののi2vではあまり効果がないようでmt5の学習してる日本語量的に使えればラッキーくらいの感覚のようだ。

とは言え英語プロンプトとちょっと画が変わるので詰めの作業等は英語で指示するほうが良いかも。

また、特にT2Vにてclipを使わずT5-XXL(の多言語派生であるumT5)を直接使うためか、いわゆるキャラクターなどの要素を分けるためにはConditioningConcatノードでプロンプト分割するよりも文章の塊単位(指定するキャラ、背景、クオリティ等)で位置調整をしてやるほうが混ざりにくい傾向にある

clipと違い文書をある程度理解できるので、文脈で区別をつけさせるほうが無理やりトークン区切りでリセットさせるより有効なようだ⋯と言うより下手にbreak的な強制分割するとかえって混ざるmorisoba65536.icon

text2video及びtext2imageでは止め絵としてみると14Bモデルでもフォトリアル方面では平均値はFlux.1にはさすがに及ばない感じ。ただしプロンプトで明確に"documentary photoreal"などと細かく状況やカメラワークなども指定すると質を上げやすい。アニメ絵は近代的な絵柄と素朴な絵柄のブレ幅が非常に激しい(同じプロンプトでもseedで大きく変わる)ので今後ファインチューンモデル等で絵柄安定してくれるのを待ちたい所。(こちらもスタイル指定をちゃんとしたら暴れないかもしれない)

ただ、指などの細部の破綻率は低めなのは大きな強み。

有名なゲームのキャラなどは過学習気味なのか要素が被ると突然生えてくる

(14Bで確認)何故か作成するフレーム数やステップ数によって同じseedでも画風や絵面が大きく変わる

ステップ数を変えると書き込みが増えるが別人が別のスタイルで描いたみたいに激変していく(構図などはほぼ同じ)

フレーム数を変えると構図すら別物になりt2iだとちゃんと出た絵が全然違うイメージ映像になったりしてほんとに挙動が謎。

t2vはあんまり長いプロンプトだと破綻するのかも…？(まだ検証不足)morisoba65536.icon

長尺の動画を作るのはVRAMや処理速度的に辛いが動きはかなりしっかりしてて、他の動画モデルより明らかな破綻率は低い(たまにはある)

また、image2videoの精度は非常に高く元絵をほぼ崩さずに動かせる

結果的にtext2videoよりimage2videoの強みが秀でてる印象

i2vだと何故かnsfwをめっちゃ素通しする

1.3B版はおてがるさ以外あまり強みがなさそうなので量子化版欲しいなーと思ってたらでてきたmorisoba65536.icon

https://blog.comfy.org/p/wan21-video-model-native-support?r=4z50rt&utm_campaign=post&utm_medium=web&triedRedirect=trueComfyUI公式で対応

「mat1 and mat2 shapes cannot be multiplied (154x768 and 4096x5120)　」とかなんか一致しないエラーが出る場合TextEncoderが一致していない

公式ノード版とkijaiノード版で今の所TextEncoderに互換性がないため一致する方を使いましょう…(両方使う場合両方必要なのでサブフォルダなどで分けると良い)

サンプルノードに含まれる🦊SaveWEBMが標準ではエラーが出るため注意

webm保存しないならノードを削除しても良い

https://github.com/modelscope/DiffSynth-Studio/tree/main/examples/wanvideo#wan-video-13b-t2vloraの学習環境(も出来る生成リポジトリ)ももうできたようだ