Video-LLaMA

https://arxiv.org/abs/2306.02858https://github.com/DAMO-NLP-SG/Video-LLaMA

https://huggingface.co/spaces/DAMO-NLP-SG/Video-LLaMAhttps://huggingface.co/DAMO-NLP-SG/Video-LLaMA-Series

https://gyazo.com/38f689e447046a17aada452aa034d0fa

https://user-images.githubusercontent.com/21003563/237334875-9a34cfb0-cb97-43ec-8737-a071eb038fe2.mp4

Video-LLaMAは、Large Language Models（LLM）にビデオ内の視覚と聴覚の両方を理解する能力を与えるマルチモーダルフレームワークである。Video-LLaMAは、事前に訓練された視覚・聴覚エンコーダとLLMからクロスモーダルな訓練をブートストラップします。MiniGPT-4やLLaVAのような静的画像理解に焦点を当てた従来の視覚LLMとは異なり、Video-LaMAはビデオ理解における2つの課題に取り組んでいる：（1）視覚シーンの時間変化の把握、（2）視聴覚信号の統合。