Wan-Animate
https://gyazo.com/3f301cadb42f447a861c6629174003f0
https://humanaigc.github.io/wan-animate/Project
https://arxiv.org/abs/2509.14055v1Wan-Animate: Unified Character Animation and Replacement with Holistic Replication
https://huggingface.co/Wan-AI/Wan2.2-Animate-14BWan-AI/Wan2.2-Animate-14B
https://gyazo.com/20a7f10f302751293cda0e0ed353d25a
入力した画像を参照動画の動きでアニメーションさせるHuman Motion Transfer(Animation)と、入力した動画の人物を参照画像のキャラに置き換えるHuman Swap(Replacement)を単一のモデルで行う、 Wan2.1-I2V(???)ベースのフレームワーク
https://gyazo.com/516ca880f76e8b7c5fab26e19dac8017
conditional latent
Ref Latent
参照画像の潜在表現(マスク=1 つまり保持する)
Tempo Latent
長尺動画を生成するときのためののりしろ(マスク=1)
Env Latent
Replacementモードのときだけ使う背景条件
画像から人物を消去した画像をVAEで潜在表現にする
Control Signal
ボディ制御
参照動画からViTPoseで抽出した棒人間を潜在化→パッチ化して加算注入
非人間にも対応できるよう、SMPLではなく棒人間を採用
顔(表情)制御 (talking head)
参照動画の顔部分をクロップし、latentをTransformer内のFace Blockに注入
Relighting LoRA
Replacementモードのときだけ使うリライトモデル
Animationモード
キャラ画像を参照動画のキャラの動きに従ってアニメーション化する(image2video)
Replacementモード
Animationモードと同様に、キャラ画像が参照動画に従ってアニメーション化されたあと、参照動画の背景に馴染むように処理される
Emv Latentを作成
背景領域のマスクを1、人物領域のマスクを0にし、背景は保持し、人物は生成する
Relighting LoRAで背景に溶け込ませる
その他モデル
https://huggingface.co/QuantStack/Wan2.2-Animate-14B-GGUF/tree/mainQuantStack/Wan2.2-Animate-14B-GGUF
使う
🦊Wan-Animate
関連
Act-Two
VACE