Ditto - work4ai

Ditto

https://gyazo.com/048f09191ee293c125d72f23ca79cc56

https://github.com/EzioBy/DittoEzioBy/Ditto

https://arxiv.org/abs/2510.15742Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

まとめ

我々は、命令ベースのビデオ編集という根本的な課題に取り組むために設計された包括的なフレームワーク、Ditto を紹介します。Ditto の中核を成すのは、主要な画像エディターの創造性の多様性とコンテキスト内ビデオジェネレーターを融合した、既存のモデルの限られた範囲を克服する、まったく新しいデータ生成パイプラインです。このプロセスを実行可能にするために、私たちのフレームワークは、計算オーバーヘッドを削減し、時間的な一貫性を向上させる時間エンハンサーによって拡張された効率的で蒸留されたモデルアーキテクチャを採用することで、法外なコストと品質のトレードオフを解決します。最後に、完全なスケーラビリティを実現するために、このパイプライン全体は、多様な命令を作成し、出力を厳密にフィルタリングして、大規模な品質管理を保証するインテリジェントエージェントによって駆動されます。このフレームワークを使用して、12,000 GPU 日以上を投資し、100 万件の高忠実度ビデオ編集サンプルの新しいデータセットである Ditto-1M を構築しました。カリキュラム学習戦略を用いて、モデル Editto を Ditto-1M でトレーニングしました。結果は、優れた指示追従能力を実証し、指示ベースのビデオ編集における新しい SOTA を確立しました。

In-Context動画編集モデルを学習するための大量の編集前動画・編集後動画・プロンプトのセットを作るためのフレームワーク

Ditto-1M

https://huggingface.co/datasets/QingyanBai/Ditto-1MQingyanBai/Ditto-1M

https://gyazo.com/ed2761e4b475018f74257704e60d72ed

Pre-process

動画コーパスから学習に向く素材だけをフィルタリング

Generation

VLMで動画のキャプションとそれに従い編集指示を生成

ソース動画から深度マップ生成

ソース動画から1枚抽出し、画像編集

これらをVACEに入力し編集された動画を作成

Post-process

粗悪なものをフィルタリング

少しだけノイズを加えてデノイズすることでチラツキを抑える

こんなテクニックが…nomadoor.icon

完成

EDitto

https://huggingface.co/QingyanBai/Ditto_models/tree/mainQingyanBai/Ditto_models

Ditto-1Mで学習されたIn-Context動画編集モデル