FFGO
https://firstframego.github.io/static/videos/html_comp1.mp4
Wan2.2-14B-I2V is our base I2V model, to which we apply our lightweight adaptation for invoking its innate subject mixing and scene transition capabilities.
What role does the first frame play in video generation models? Traditionally, it's viewed as the spatial-temporal starting point of a video, merely a seed for subsequent animation.
In this work, we reveal a fundamentally different perspective: video models implicitly treat the first frame as a conceptual memory buffer that stores visual entities for later reuse during generation.
Leveraging this insight, we show that it's possible to achieve robust and generalized video content customization in diverse scenarios, using only 20–50 training examples with no architectural changes or large-scale finetuning.
This unveils a powerful, overlooked capability of video generation models for reference-based video customization.
本研究では、根本的に異なる視点を明らかにします
動画生成モデルは暗黙的に最初のフレームを概念的なメモリバッファとして扱い、視覚的エンティティを生成時に再利用するために保存します。 この知見を活用することで、20~50のトレーニング例のみを使用し、アーキテクチャの変更や大規模なfine-tuningなしに、多様なシナリオで堅牢で汎用的なビデオコンテンツのカスタマイズが可能であることを示します。 これは、reference-baseのビデオカスタマイズにおける動画生成モデルの強力ながら見過ごされていた能力を明らかにするものです。