CausVid - work4ai

CausVid

https://youtu.be/nXAT18XuEKc?list=TLGGW0--ZpR9vaoxOTA0MjAyNQ

https://causvid.github.io/Project

https://arxiv.org/abs/2412.07772From Slow Bidirectional to Fast Autoregressive Video Diffusion Models

https://github.com/tianweiy/CausVidtianweiy/CausVid

https://huggingface.co/tianweiy/CausVidtianweiy/CausVid

最初のフレーム生成まで1.3s、9.4FPSでセミリアルタイム動画生成を行う

Gemini.icon

従来の動画生成AIは、「この瞬間の映像を作るために、未来の映像の情報も少し使う」という双方向の仕組みを持っていました。これは高画質な動画を作る上では有利だったのですが、リアルタイムでの生成には向いていませんでした。

CausVidでは、この双方向の仕組みを、「過去の映像の情報だけを使って今の映像を作る」という一方向（自己回帰、autoregressive）の仕組みに変えました

LoRAモデル化

https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan21_CausVid_bidirect2_T2V_1_3B_lora_rank32.safetensorsWan21_CausVid_bidirect2_T2V_1_3B_lora_rank32.safetensors

https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan21_CausVid_14B_T2V_lora_rank32.safetensorsWan21_CausVid_14B_T2V_lora_rank32.safetensors

https://civitai.com/models/1585622/causvid-lora-massive-speed-up-for-wan21-made-by-kijai使い方(長いので)設定に関するところのみ抜粋

共通:CFG 1

ただし(Lora強度やサンプラーなどにもよるが)CFG 3くらいまでは上げても良いため(相対的に妥協できる範囲で)速度よりプロンプト追従性が大事なとき(もしくはどうしてもネガティブプロンプトが必要な時)等は適宜増やす。

重みを 0.3 、unipc スケジューラで約12 ステップ。(モーション品質の低下が発生するのを防ぐ設定)

ネイティブワークフローでは、unipc サンプラー/ betaスケジューラーで動作、gradient_estimationサンプラーでも動作するらしい。

試した範囲ではgradient_estimationが一番安定しそうな感じ

試した感じunipc_bh2、dpmpp_2m、iPNDM、DEISも良さそう。安定取るなら13stepほしい感じ

https://github.com/kijai/ComfyUI-WanVideoWrapper下記のサンプラーは最新の Kijai ラッパーが必要

重みを0.5、flowmatch_clausvidスケジューラーで4～9ステップ(ネイティブノードの推奨サンプラーでも似たような感じで行ける事が多い)

ステップ数を増やすと、動きも多少増える傾向があります。動画が静止画すぎる場合は6～8ステップを試してください。loraのウェイトを少し下げることもできます

0.5程度の強度で使用してください。VACEではこの値をもう少し低く設定する必要があるようで、ブロック編集（5ブロックごと）が必要です。そうしないと、口の動きなどの細かいコントロールネットの動きが正確に表現されない可能性があります。他のloraと併用する場合は、少しだけ値を上げる必要があるかもしれません。

VACEのようにウェイトを低くする必要がある場合は、2～4ステップほど増やして補正する必要があるかもしれません。

https://www.reddit.com/r/comfyui/comments/1ks4sp6/causvid_and_wan_21_i2v_gguf_6_total_time_300/?utm_source=chatgpt.comCausvid and Wan 2.1 I2V GGUF 6: Total time 300 seconds, steps 5

改良モデル

v1(上と同じ) https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan21_CausVid_14B_T2V_lora_rank32.safetensorsWan21_CausVid_14B_T2V_lora_rank32.safetensors

v1.5 https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan21_CausVid_14B_T2V_lora_rank32_v1_5_no_first_block.safetensorsWan21_CausVid_14B_T2V_lora_rank32_v1_5_no_first_block.safetensors

v2.0 https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan21_CausVid_14B_T2V_lora_rank32_v2.safetensorsWan21_CausVid_14B_T2V_lora_rank32_v2.safetensors

https://www.reddit.com/r/StableDiffusion/comments/1l0jz1o/causvid_v2_help/Causvid v2 help よりコメント by Kijai

まず、オリジナルのCausVidモデルは、通常のWanモデルとは異なるサンプリング方法、より自己回帰的な方法で使用されることを意図しています。私はそれを完全に理解していないため、適切に実装しようとしたことはありませんし、個人的に重視しているVACEのような制御が機能するかどうかも不明です。

モデルにおける蒸留（distillation）は、もちろん大きな利点であり、これはWanモデルの通常のサンプリング方法でも機能することが証明されています。しかし、因果サンプリング方法のために行われる学習が、モーション、いくつかの品質問題、そして多くの場合色の飛びに悪影響を与える主な理由ではないかと私は考えています。これに対処するため、LoRAは強度を大幅に下げて適用でき、ほとんどの人がそのように使用しているようです。

そのため、更新されたLoRAの目的は、最悪の影響をフィルタリングすることでした。主に、LoRAを最初のブロックに適用しない場合、フルLoRA強度でも動画の冒頭で「フラッシュ」が発生しないことに気づきました。バージョン1.5にはこの修正のみが施されています。

バージョン2では、最初のブロックも削除され、さらにアテンションレイヤー（自己アテンションとクロスアテンション）以外のすべてが削除されています。通常のT2Vでテストしたところ、ほぼ通常のモーション、フラッシュやアーティファクトなし、色の飛びなしで、最も良い結果を簡単に得られました。もちろん、これは全体的に効果が弱いため、より多くのステップが必要です。私にとっては8〜12ステップが良好でした。

要するに、状況によります。

v2はより多くのステップが必要で、(低い) CFGまたはCFGスケジューリングと併用できます。効果が弱いため、標準の14B T2V以外のモデルで使用すると、あまり良いと感じられないかもしれません。例えば、Phantomではバージョン1.5を好む人もいます。

使う

🦊Wan2.1#6832a4270000000000b1af6f

パラメータ比較

https://www.reddit.com/r/StableDiffusion/comments/1ky8mw9/reduce_artefact_causvid_wan21/Reduce artefact causvid Wan2.1