VideoLLaMA3
https://github.com/DAMO-NLP-SG/VideoLLaMA3DAMO-NLP-SG/VideoLLaMA3
https://huggingface.co/DAMO-NLP-SG/VideoLLaMA3-7B/7B(Qwen2.5 7Bベース)
https://huggingface.co/DAMO-NLP-SG/VideoLLaMA3-2B2B(Qwen2.5 1.5Bベース)
Video対応のvlm
Image専用のモデルも作られている(これはそこからの派生)
名前が非常にややこしい(紛らわしい)がBASEモデルはmeta-llama系列ではなくQwen2.5である。
ライセンス的にはApache2.0なのでむしろありがたいのだが…morisoba65536.icon
QwenベースでApacheで公開できるんでしたっけwogikaze.icon
もともと2.5はApacheだったわ
現密には72b以外がApacheですね(72bはllamaみたいなライセンス)
本家もQwen2.5-VLを出したがそちらは3Bモデルが商用利用できないので小型VLMの素体にはこっちのほうが使いやすいかも知れないmorisoba65536.icon
3B以下のVLMだとそもそも対話より単純な「自然言語指示のできる分類器」的な使い方が主になると思うのでそういう観点で考えるとQwen2-VL-2Bベースで十分じゃね?と言われるとそうかも…