StreamingVLM

https://github.com/mit-han-lab/streaming-vlm/raw/main/assets/efficiency.png

StreamingVLMは、コンパクトなKV-cacheを保持し、ストリーミング推論とトレーニングを整合させることで、実質的に無限の動画をリアルタイムかつ安定的に理解可能にします。二次コストやSliding Window Attenionの落とし穴を回避し、単一のH100で最大8FPSを実現、新しい長尺動画ベンチマークでGPT-4o miniに対して66.18%の優位性を示しました。また、タスク固有のFine-Tuningなしで一般的なVQA性能を向上させます。

関連

StreamingLLM

FYI

https://github.com/AkihikoWatanabe/paper_notes/issues/3270

Summary

StreamingVLMは、無限のビデオストリームをリアルタイムで理解するためのモデルで、トレーニングと推論を統一したフレームワークを採用。アテンションシンクの状態を再利用し、短いビジョントークンと長いテキストトークンのウィンドウを保持することで、計算コストを抑えつつ高い性能を実現。新しいベンチマークInf-Streams-Evalで66.18%の勝率を達成し、一般的なVQA能力を向上させることに成功。

Abstract(Translation)

Vision-language models (VLMs)は、リアルタイムアシスタントや自律エージェントを支える可能性を秘めていますが、重要な課題に直面しています。

それは、レイテンシやメモリ使用量を増加させることなく、ほぼ無限のビデオストリームを理解することです。全体のビデオをFull Attentionで処理すると、計算コストが二次的に増加し、長いビデオに対する性能が低下します。一方で、単純なSliding Window Attention手法も欠陥があり、coherenceが破壊されたり、冗長な再計算のために高いレイテンシに悩まされます。

本論文では、無限の視覚入力をリアルタイムで安定して理解するために設計されたモデル、StreamingVLMを紹介します。

私たちのアプローチは、トレーニングとストリーミング推論を整合させた統一フレームワークです。推論中には、Attention Sinkの状態を再利用し、最近のビジョントークンの短いウィンドウと最近のテキストトークンの長いウィンドウを維持することで、コンパクトなkv-cacheを保持します。

このストリーミング能力は、短い重複したビデオチャンクにFull Attentionを適用するシンプルなSupervised Fine-Tuning(SFT)戦略によって実現され、長いコンテキストでのトレーニングを行うことなく、推論時のAttention pattern を効果的に模倣します。

評価のために、フレームとテキストの間で密な毎秒のアラインメントを必要とする、平均2時間を超えるビデオを持つ新しいベンチマークInf-Streams-Evalを構築しました。

Inf-Streams-Evalにおいて、StreamingVLMはGPT-4O miniに対して66.18%の勝率を達成し、単一のNVIDIA H100で最大8 FPSの安定したリアルタイム性能を維持します。

特に、私たちのSFT戦略は、VQA特有のファインチューニングなしで一般的なVQA能力を向上させ、LongVideoBenchで+4.30、OVOBench Realtimeで+5.96の性能向上を実現します。

moonlightによるarxiv paper要約

deepwikiによるgithub repo解説