Wan-Animate
https://gyazo.com/3f301cadb42f447a861c6629174003f0
https://gyazo.com/20a7f10f302751293cda0e0ed353d25a
https://gyazo.com/516ca880f76e8b7c5fab26e19dac8017
conditional latent
Ref Latent
参照画像の潜在表現(マスク=1 つまり保持する)
Tempo Latent
長尺動画を生成するときのためののりしろ(マスク=1)
Env Latent
Replacementモードのときだけ使う背景条件
画像から人物を消去した画像をVAEで潜在表現にする
Control Signal
ボディ制御
参照動画からViTPoseで抽出した棒人間を潜在化→パッチ化して加算注入 非人間にも対応できるよう、SMPLではなく棒人間を採用 参照動画の顔部分をクロップし、latentをTransformer内のFace Blockに注入
Replacementモードのときだけ使うリライトモデル Animationモード
キャラ画像を参照動画のキャラの動きに従ってアニメーション化する(image2video)
Replacementモード
Animationモードと同様に、キャラ画像が参照動画に従ってアニメーション化されたあと、参照動画の背景に馴染むように処理される
Emv Latentを作成
背景領域のマスクを1、人物領域のマスクを0にし、背景は保持し、人物は生成する
Relighting LoRAで背景に溶け込ませる
その他モデル
使う
関連