Pathways on the Image Manifold: Image Editing via Video Generation
NotebookLM
画像編集を動画生成タスクとして再構築する新しいアプローチ「Frame2Frame」を提案しています。
既存の方法が複雑な指示に正確に従えず、元の画像の重要な要素の忠実性を損なうという限界に対処するため、この研究は、事前学習された画像-to-動画モデルを利用して、元の画像から目的の編集へと連続的なパスを生成します。
この「時間的コヒーレンス」を活用することで、編集が自然な画像多様体(Image Manifold)上を滑らかに移行し、編集の正確性と元の画像の特徴の保存を同時に達成し、最先端の結果を示しています。このフレームワークは、時間的編集キャプションの生成、動画による編集の実現、そして最適なフレームの自動選択という三つの主要なステップで構成されています。