Control-A-Video
エッジマップやDepthマップなどの制御信号のシーケンスを条件として動画を生成する、Video-ControlNetと名付けられた制御可能なテキスト-ビデオ(T2V)拡散モデルを紹介する。Video-ControlNetは、あらかじめ訓練された条件付きテキストから画像への拡散モデル(T2I)をベースに、空間-時間自己アテンション機構と、効率的なクロスフレームモデリングのための訓練可能な時間層を組み込んでいる。 https://controlavideo.github.io/diff_control/a_robotic_camel_in_snowy_day_origin.mp4https://controlavideo.github.io/diff_control/a_robotic_camel_in_snowy_day_output.mp4