moondream2

table:comparison

Model VQAv2 GQA TextVQA POPE TallyQA

moondream1 74.7 57.9 35.6 - -

moondream2 (latest) 74.2 58.5 36.4 (coming soon) (coming soon)

2025/3/27

より長いキャプション(標準の二倍)をつけられるように

2025/1/9

https://moondream.ai/blog/introducing-a-new-moondream-1-9b-and-gpu-supportMoondream 2025-01-09 Release: Structured Text, Enhanced OCR, Gaze Detection

https://gyazo.com/7adc159c6dc4570f68563da0cbde43af

ComfyUI実装

データとして使いやすく整形出力出来るからかllmに検出内容を渡すだけでより巨大なvlmみたいな動きをさせる事も出来るようだ(下記のプロダクトはほんとにMoonDreamの検出トークンをQwQ-32B-Previewに渡してるだけでQwQをvlm化したみたいな事を実現してる)

基本的に日本語には対応していない…が、llmとして対話するよりもVisionデータの情報を取り出す用途に特化したモデルであるためどちらかというとバックエンドの画像認識ツールとして使うことのほうが多そうではあるmorisoba65536.icon

そういう点で言うと上記の強い推論モデルに渡すデータを認識する目的で使うのはかなりありなのかも知れない