Ditto
https://gyazo.com/048f09191ee293c125d72f23ca79cc56
https://editto.net/Project
https://github.com/EzioBy/DittoEzioBy/Ditto
https://arxiv.org/abs/2510.15742Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset
まとめ
我々は、命令ベースのビデオ編集という根本的な課題に取り組むために設計された包括的なフレームワーク、Ditto を紹介します。Ditto の中核を成すのは、主要な画像エディターの創造性の多様性とコンテキスト内ビデオジェネレーターを融合した、既存のモデルの限られた範囲を克服する、まったく新しいデータ生成パイプラインです。このプロセスを実行可能にするために、私たちのフレームワークは、計算オーバーヘッドを削減し、時間的な一貫性を向上させる時間エンハンサーによって拡張された効率的で蒸留されたモデルアーキテクチャを採用することで、法外なコストと品質のトレードオフを解決します。最後に、完全なスケーラビリティを実現するために、このパイプライン全体は、多様な命令を作成し、出力を厳密にフィルタリングして、大規模な品質管理を保証するインテリジェントエージェントによって駆動されます。このフレームワークを使用して、12,000 GPU 日以上を投資し、100 万件の高忠実度ビデオ編集サンプルの新しいデータセットである Ditto-1M を構築しました。カリキュラム学習戦略を用いて、モデル Editto を Ditto-1M でトレーニングしました。結果は、優れた指示追従能力を実証し、指示ベースのビデオ編集における新しい SOTA を確立しました。
In-Context動画編集モデルを学習するための大量の編集前動画・編集後動画・プロンプトのセットを作るためのフレームワーク
Ditto-1M
https://huggingface.co/datasets/QingyanBai/Ditto-1MQingyanBai/Ditto-1M
https://gyazo.com/ed2761e4b475018f74257704e60d72ed
Pre-process
動画コーパスから学習に向く素材だけをフィルタリング
Generation
VLMで動画のキャプションとそれに従い編集指示を生成
ソース動画から深度マップ生成
ソース動画から1枚抽出し、画像編集
これらをVACEに入力し編集された動画を作成
Post-process
粗悪なものをフィルタリング
少しだけノイズを加えてデノイズすることでチラツキを抑える
こんなテクニックが…nomadoor.icon
完成
EDitto
https://huggingface.co/QingyanBai/Ditto_models/tree/mainQingyanBai/Ditto_models
Ditto-1Mで学習されたIn-Context動画編集モデル
関連
Wan Ditto LoRA