Wan-Animate

https://gyazo.com/3f301cadb42f447a861c6629174003f0

https://gyazo.com/20a7f10f302751293cda0e0ed353d25a

入力した画像を参照動画の動きでアニメーションさせるHuman Motion Transfer(Animation)と、入力した動画の人物を参照画像のキャラに置き換えるHuman Swap(Replacement)を単一のモデルで行う、 Wan2.1-I2V(???)ベースのフレームワーク

https://gyazo.com/516ca880f76e8b7c5fab26e19dac8017

conditional latent

Ref Latent

参照画像の潜在表現(マスク=1 つまり保持する)

Tempo Latent

長尺動画を生成するときのためののりしろ(マスク=1)

Env Latent

Replacementモードのときだけ使う背景条件

画像から人物を消去した画像をVAEで潜在表現にする

Control Signal

ボディ制御

参照動画からViTPoseで抽出した棒人間を潜在化→パッチ化して加算注入

非人間にも対応できるよう、SMPLではなく棒人間を採用

顔(表情)制御 (talking head)

参照動画の顔部分をクロップし、latentをTransformer内のFace Blockに注入

Replacementモードのときだけ使うリライトモデル

Animationモード

キャラ画像を参照動画のキャラの動きに従ってアニメーション化する(image2video)

Replacementモード

Animationモードと同様に、キャラ画像が参照動画に従ってアニメーション化されたあと、参照動画の背景に馴染むように処理される

Emv Latentを作成

背景領域のマスクを1、人物領域のマスクを0にし、背景は保持し、人物は生成する

Relighting LoRAで背景に溶け込ませる

その他モデル

使う