Control-A-Video
https://arxiv.org/abs/2305.13840
エッジマップやDepthマップなどの制御信号のシーケンスを条件として動画を生成する、Video-ControlNetと名付けられた制御可能なテキスト-ビデオ(T2V)拡散モデルを紹介する。Video-ControlNetは、あらかじめ訓練された条件付きテキストから画像への拡散モデル(T2I)をベースに、空間-時間自己アテンション機構と、効率的なクロスフレームモデリングのための訓練可能な時間層を組み込んでいる。
https://controlavideo.github.io
https://github.com/Weifeng-Chen/control-a-video
https://controlavideo.github.io/diff_control/a_robotic_camel_in_snowy_day_origin.mp4https://controlavideo.github.io/diff_control/a_robotic_camel_in_snowy_day_output.mp4
video2videoとは違うのか?wogikaze.icon
Gen-2にあるようなやつに似ている
text2video