SCAIL-2
https://gyazo.com/9f6a6e0febf4e11ac6001c650ab3caff
棒人間は人間の動きを取るのにはいいが、接触、遮蔽、重なり、奥行き、非人体の動きを扱えない
https://gyazo.com/a3da84119186c5a445c07e09bf6eda69
参照画像とdriving videoをlatent化し、mask情報と一緒にDiTへ入れる
これに限らず、人間がコネコネ複雑なパイプラインを組むより、大量にデータ食わせてAIがタスクを理解できればOK、という方向になっていってますわねnomadoor.icon
WAN-Animate同様、参照画像を動かすAnimationモードと、動画の人物を参照画像のキャラに入れ替えるReplacementモードがある
学習できる実データが足りないため、SCAIL-Preview、Wan-Animate、MoChaを使い、60Kの合成モーションペアデータを作る
ComfyUIコアに実装