Control-A-Video

エッジマップやDepthマップなどの制御信号のシーケンスを条件として動画を生成する、Video-ControlNetと名付けられた制御可能なテキスト-ビデオ（T2V）拡散モデルを紹介する。Video-ControlNetは、あらかじめ訓練された条件付きテキストから画像への拡散モデル（T2I）をベースに、空間-時間自己アテンション機構と、効率的なクロスフレームモデリングのための訓練可能な時間層を組み込んでいる。

https://controlavideo.github.io

https://github.com/Weifeng-Chen/control-a-video

https://controlavideo.github.io/diff_control/a_robotic_camel_in_snowy_day_origin.mp4https://controlavideo.github.io/diff_control/a_robotic_camel_in_snowy_day_output.mp4

video2videoとは違うのか？wogikaze.icon

Gen-2にあるようなやつに似ている

text2video