EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning
NotebookLM
この資料は、画像と動画の生成および編集を単一のモデルで統合する新しいフレームワーク、「EditVerse」を紹介しています。
特に、アーキテクチャの制約と動画編集データの不足により統合が遅れていた動画領域の課題を解決するため、テキスト、画像、動画の全モダリティを統一されたトークンシーケンスとして表現します。
この設計により、モデルは強力なインコンテクスト学習と、データが豊富な画像ドメインからの自然なクロスモーダル知識転移を実現し、最先端の性能を達成しています。