SCAIL - work4ai

SCAIL

https://gyazo.com/f2e256b499c3c4f429d918736e5012b8

https://gyazo.com/b8bd2c869caf2d75e5d6970600edcf44

3Dポーズ推定

2D表現の棒人間だと、体の前後や回転を誤解しやすい

NLFPoseで関節部分を推定し、円柱でそれらをつないだものを条件画像にする

素直にSMPLを使うと、ドライブ動画の人物の体形まで受け継いでしまう

参照画像とドライブ画像の体格差吸収

訓練時：3D骨格に対して体格スケールとカメラ変換を別々にランダム化し、参照と駆動の「体型差・画角差」にモデルを慣れさせる

推論時：駆動3D骨格を参照フレームの2D関節に合うよう投影（Cam）を最適化して、動きの乗る位置を合わせ込む

full-context pose injection

https://gyazo.com/729cf95926937fcb951dabedd26e00db

(b)従来の手法では、各フレームでlatentに、そのフレームのポーズ特徴を追加する

これだと、そのフレームしか見ていないため、前後の流れを理解しておらず脈絡のない変化が起こることがある

(a)Full-Context Injection Strategyは動画トークン列とポーズトークン列を並べたまま連結して、同じtransformerに入れる

すると前後のフレームも加味して生成できるようになる

その分重くなるため、ポーズ側だけ画像サイズを小さくしたり間引いたりして品質と計算量のトレードオフを図る

Studio-Benchを用いてVACE/Wan-Animate/UniAnimate-DiT比較

https://gyazo.com/a073b6648d7478e11d4b17dbd06df4e2

table:Self-Driven Animation

Methods PSNR ↑ SSIM ↑ LPIPS ↓ FVD ↓

UniAnimate-DiT 17.79 0.637 0.242 362.27

VACE 16.73 0.588 0.263 264.71

Wan-Animate 18.54 0.648 0.221 187.61

SCAIL-14B(Ours) 19.22 0.660 0.206 176.16

↑↓は各metricsにおいて、値が高いほど良いか低いほど良いかを示す

ComfyUI実装