SCAIL
https://gyazo.com/f2e256b499c3c4f429d918736e5012b8
https://gyazo.com/b8bd2c869caf2d75e5d6970600edcf44
3Dポーズ推定
2D表現の棒人間だと、体の前後や回転を誤解しやすい
NLFPoseで関節部分を推定し、円柱でそれらをつないだものを条件画像にする 素直にSMPLを使うと、ドライブ動画の人物の体形まで受け継いでしまう 参照画像とドライブ画像の体格差吸収
訓練時:3D骨格に対して 体格スケールとカメラ変換を別々にランダム化し、参照と駆動の「体型差・画角差」にモデルを慣れさせる
推論時:駆動3D骨格を参照フレームの2D関節に合うよう 投影(Cam)を最適化して、動きの乗る位置を合わせ込む
full-context pose injection
https://gyazo.com/729cf95926937fcb951dabedd26e00db
(b)従来の手法では、各フレームでlatentに、そのフレームのポーズ特徴を追加する
これだと、そのフレームしか見ていないため、前後の流れを理解しておらず脈絡のない変化が起こることがある
(a)Full-Context Injection Strategyは動画トークン列とポーズトークン列を並べたまま連結して、同じtransformerに入れる
すると前後のフレームも加味して生成できるようになる
その分重くなるため、ポーズ側だけ画像サイズを小さくしたり間引いたりして品質と計算量のトレードオフを図る
https://gyazo.com/a073b6648d7478e11d4b17dbd06df4e2
table:Self-Driven Animation
Methods PSNR ↑ SSIM ↑ LPIPS ↓ FVD ↓
VACE 16.73 0.588 0.263 264.71 SCAIL-14B(Ours) 19.22 0.660 0.206 176.16 ↑↓は各metricsにおいて、値が高いほど良いか低いほど良いかを示す
ComfyUI実装