StreamingVLM
https://github.com/mit-han-lab/streaming-vlm/raw/main/assets/efficiency.png
関連
FYI
Summary
StreamingVLMは、無限のビデオストリームをリアルタイムで理解するためのモデルで、トレーニングと推論を統一したフレームワークを採用。アテンションシンクの状態を再利用し、短いビジョントークンと長いテキストトークンのウィンドウを保持することで、計算コストを抑えつつ高い性能を実現。新しいベンチマークInf-Streams-Evalで66.18%の勝率を達成し、一般的なVQA能力を向上させることに成功。 Abstract(Translation)
Vision-language models (VLMs)は、リアルタイムアシスタントや自律エージェントを支える可能性を秘めていますが、重要な課題に直面しています。 それは、レイテンシやメモリ使用量を増加させることなく、ほぼ無限のビデオストリームを理解することです。全体のビデオをFull Attentionで処理すると、計算コストが二次的に増加し、長いビデオに対する性能が低下します。一方で、単純なSliding Window Attention手法も欠陥があり、coherenceが破壊されたり、冗長な再計算のために高いレイテンシに悩まされます。 本論文では、無限の視覚入力をリアルタイムで安定して理解するために設計されたモデル、StreamingVLMを紹介します。 私たちのアプローチは、トレーニングとストリーミング推論を整合させた統一フレームワークです。推論中には、Attention Sinkの状態を再利用し、最近のビジョントークンの短いウィンドウと最近のテキストトークンの長いウィンドウを維持することで、コンパクトなkv-cacheを保持します。 評価のために、フレームとテキストの間で密な毎秒のアラインメントを必要とする、平均2時間を超えるビデオを持つ新しいベンチマークInf-Streams-Evalを構築しました。