Ditto
まとめ
我々は、命令ベースのビデオ編集という根本的な課題に取り組むために設計された包括的なフレームワーク、Ditto を紹介します。Ditto の中核を成すのは、主要な画像エディターの創造性の多様性とコンテキスト内ビデオジェネレーターを融合した、既存のモデルの限られた範囲を克服する、まったく新しいデータ生成パイプラインです。このプロセスを実行可能にするために、私たちのフレームワークは、計算オーバーヘッドを削減し、時間的な一貫性を向上させる時間エンハンサーによって拡張された効率的で蒸留されたモデルアーキテクチャを採用することで、法外なコストと品質のトレードオフを解決します。最後に、完全なスケーラビリティを実現するために、このパイプライン全体は、多様な命令を作成し、出力を厳密にフィルタリングして、大規模な品質管理を保証するインテリジェントエージェントによって駆動されます。このフレームワークを使用して、12,000 GPU 日以上を投資し、100 万件の高忠実度ビデオ編集サンプルの新しいデータセットである Ditto-1M を構築しました。カリキュラム学習戦略を用いて、モデル Editto を Ditto-1M でトレーニングしました。結果は、優れた指示追従能力を実証し、指示ベースのビデオ編集における新しい SOTA を確立しました。
関連