Video-LLaMA
https://gyazo.com/38f689e447046a17aada452aa034d0fa
https://user-images.githubusercontent.com/21003563/237334875-9a34cfb0-cb97-43ec-8737-a071eb038fe2.mp4
Video-LLaMAは、Large Language Models(LLM)にビデオ内の視覚と聴覚の両方を理解する能力を与えるマルチモーダルフレームワークである。Video-LLaMAは、事前に訓練された視覚・聴覚エンコーダとLLMからクロスモーダルな訓練をブートストラップします。MiniGPT-4やLLaVAのような静的画像理解に焦点を当てた従来の視覚LLMとは異なり、Video-LaMAはビデオ理解における2つの課題に取り組んでいる:(1)視覚シーンの時間変化の把握、(2)視聴覚信号の統合。