Video models are zero-shot learners and reasoners

URL：https://video-zero-shot.github.io/

この文書は、Google DeepMindが開発した大規模生成ビデオモデル「Veo 3」が、言語分野における大規模言語モデル（LLMs）と同様に、視覚分野の基盤モデルとなる可能性を示していることを論じています。LLMsが汎用的な言語理解を可能にしたのと同様に、Veo 3は、訓練されていない多岐にわたる視覚タスクをゼロショットで解決する驚くべき能力を示しています。具体的には、このモデルは知覚、モデリング、操作といった能力を持ち、エッジ検出や物体分割から、物理特性の理解、さらには迷路解きや対称性の解決といった視覚的推論の初期形態までを可能にしています。これらの創発的なゼロショット能力は、Veo 3が、汎用的なビジョン理解へと向かう軌道に乗っていることを示唆しています。