Moving Off-the-Grid
現在の視覚モデルは、通常、表現構造と画像空間の間に固定された対応関係を維持しています。各レイヤーは、「グリッド上」に配置されたトークンのセットで構成され、パッチまたはトークンにバイアスをかけ、特定の空間(時間)位置で情報をエンコードします。この研究では、Moving Off-the-Grid (MooG) を紹介します。これは、代替アプローチを提供する自己教師ありビデオ表現モデルであり、トークンが「グリッド外」に移動できるようにすることで、時間の経過とともに画像平面を移動する場合でも、シーン要素を一貫して表現できるようにします。クロスアテンションと位置埋め込みの組み合わせを使用することで、表現構造と画像構造を分離します。ビデオデータでトレーニングされた単純な自己教師あり目的 (次のフレーム予測) により、特定のシーン構造にバインドされ、移動時にそれらを追跡する潜在的なトークンのセットが生成されます。学習した表現の上に読み取り値をさまざまな下流タスクでトレーニングすることで、MooG の学習した表現の有用性を定性的および定量的に実証します。 MooG は、「オンザグリッド」ベースラインと比較して、さまざまな視覚タスクに強力な基盤を提供できることを示しています。