moondream2
table:comparison
Model VQAv2 GQA TextVQA POPE TallyQA
moondream1 74.7 57.9 35.6 - -
moondream2 (latest) 74.2 58.5 36.4 (coming soon) (coming soon)
2025/3/27
より長いキャプション(標準の二倍)をつけられるように
2025/1/9
https://gyazo.com/7adc159c6dc4570f68563da0cbde43af
ComfyUI実装
データとして使いやすく整形出力出来るからかllmに検出内容を渡すだけでより巨大なvlmみたいな動きをさせる事も出来るようだ(下記のプロダクトはほんとにMoonDreamの検出トークンをQwQ-32B-Previewに渡してるだけでQwQをvlm化したみたいな事を実現してる) 基本的に日本語には対応していない…が、llmとして対話するよりもVisionデータの情報を取り出す用途に特化したモデルであるためどちらかというとバックエンドの画像認識ツールとして使うことのほうが多そうではあるmorisoba65536.icon
そういう点で言うと上記の強い推論モデルに渡すデータを認識する目的で使うのはかなりありなのかも知れない