Wan2.2-Fun
https://github.com/aigc-apps/VideoX-Funaigc-apps/VideoX-Fun
https://huggingface.co/alibaba-pai/Wan2.2-Fun-A14B-Controlalibaba-pai/Wan2.2-Fun-A14B-Control
canny, pose, depth ect.
https://huggingface.co/alibaba-pai/Wan2.2-Fun-A14B-InPalibaba-pai/Wan2.2-Fun-A14B-InP
inpainting interpolation
https://docs.comfy.org/tutorials/video/wan/fun-inp(リンクmorisoba65536.icon先は2.1時代のものだが)名前からちょっとややこしいがInPはStart Endフレーム指定ができるもののようだ
inpaintingじゃなくてinterpolationなのかnomadoor.icon
なるほどmorisoba65536.icon
とりあえず、Wan2.2-Fun-A14B-InPのほうは普通に🦊Wan2.2のFLF2Vのworkflowでそのまま動いた。
通常のWan2.2のFLF2Vが「最終フレームが近づいたら慌てて最後のフレームに帳尻を合わそうとする」のに対してこちらはある程度余裕をもって遷移するような動きをする。
Startフレームのみ、Endフレームのみのどちらでもちゃんと動くところまで確認、ただし通常のWan2.2 i2vより「Startフレームの状態からEndフレームの状態に至る動作を明示的に書く」ほうが良い結果になりやすい。
例えば「Startフレームに鞄を横において座っている人物」、「Endフレームに鞄を持って立っている人物」の画像を与えたとき、鞄を持って立つ時に通常のi2v-FLF2Vでは特にプロンプトでは指定せず「立って出かけようとする」といった書き方でもよしなに鞄を持とうとする動作が入るが、InPでは手がブラー効果のように消えたり不安定化して立ち上がったりしやすい。
大体T2Vの時の感覚で書くと良い
また、4step化Loraを適用した場合でも適宜6~8step程度割り当てると自然な動きになりやすい?(検証数不足)morisoba65536.icon
high noise抜きで生成するとやっぱり不安定化してなんかワープしたり始める点も通常のi2vと同様
← Wan2.1-Fun