VideoLLaMA3

Video対応のvlm

Image専用のモデルも作られている(これはそこからの派生)

名前が非常にややこしい(紛らわしい)がBASEモデルはmeta-llama系列ではなくQwen2.5である。

ライセンス的にはApache2.0なのでむしろありがたいのだが…morisoba65536.icon

QwenベースでApacheで公開できるんでしたっけwogikaze.icon

もともと2.5はApacheだったわ

現密には72b以外がApacheですね(72bはllamaみたいなライセンス)

本家もQwen2.5-VLを出したがそちらは3Bモデルが商用利用できないので小型VLMの素体にはこっちのほうが使いやすいかも知れないmorisoba65536.icon

3B以下のVLMだとそもそも対話より単純な「自然言語指示のできる分類器」的な使い方が主になると思うのでそういう観点で考えるとQwen2-VL-2Bベースで十分じゃね？と言われるとそうかも…