SCAIL-2 - work4ai

SCAIL-2

https://gyazo.com/9f6a6e0febf4e11ac6001c650ab3caff

WAN-Animate、SCAIL(-1) 始め多くのHuman Motion Transferで使われている中間表現、つまり棒人間をやめて、直接モーション動画を条件として使う

棒人間は人間の動きを取るのにはいいが、接触、遮蔽、重なり、奥行き、非人体の動きを扱えない

https://gyazo.com/a3da84119186c5a445c07e09bf6eda69

参照画像とdriving videoをlatent化し、mask情報と一緒にDiTへ入れる

これに限らず、人間がコネコネ複雑なパイプラインを組むより、大量にデータ食わせてAIがタスクを理解できればOK、という方向になっていってますわねnomadoor.icon

WAN-Animate同様、参照画像を動かすAnimationモードと、動画の人物を参照画像のキャラに入れ替えるReplacementモードがある

学習できる実データが足りないため、SCAIL-Preview、Wan-Animate、MoChaを使い、60Kの合成モーションペアデータを作る

ComfyUIコアに実装