Video-LLaMA
https://arxiv.org/abs/2306.02858https://github.com/DAMO-NLP-SG/Video-LLaMA
https://huggingface.co/spaces/DAMO-NLP-SG/Video-LLaMAhttps://huggingface.co/DAMO-NLP-SG/Video-LLaMA-Series
https://gyazo.com/38f689e447046a17aada452aa034d0fa
https://user-images.githubusercontent.com/21003563/237334875-9a34cfb0-cb97-43ec-8737-a071eb038fe2.mp4
Video-LLaMAは、Large Language Models(LLM)にビデオ内の視覚と聴覚の両方を理解する能力を与えるマルチモーダルフレームワークである。Video-LLaMAは、事前に訓練された視覚・聴覚エンコーダとLLMからクロスモーダルな訓練をブートストラップします。MiniGPT-4やLLaVAのような静的画像理解に焦点を当てた従来の視覚LLMとは異なり、Video-LaMAはビデオ理解における2つの課題に取り組んでいる:(1)視覚シーンの時間変化の把握、(2)視聴覚信号の統合。