moondream2
https://moondream.ai/playgroundDemo
https://huggingface.co/vikhyatk/moondream2vikhyatk/moondream2
table:comparison
Model VQAv2 GQA TextVQA POPE TallyQA
moondream1 74.7 57.9 35.6 - -
moondream2 (latest) 74.2 58.5 36.4 (coming soon) (coming soon)
2025/3/27
https://moondream.ai/blog/moondream-2025-03-27-releaseMoondream 2025-03-27
より長いキャプション(標準の二倍)をつけられるように
2025/1/9
Moondream 1.9B
https://moondream.ai/blog/introducing-a-new-moondream-1-9b-and-gpu-supportMoondream 2025-01-09 Release: Structured Text, Enhanced OCR, Gaze Detection
structured outputに対応
新機能 : 視線検出(Gaze Detection)
https://gyazo.com/7adc159c6dc4570f68563da0cbde43af
ComfyUI実装
https://github.com/jhj0517/ComfyUI-Moondream-Gaze-DetectionComfyUI-Moondream-Gaze-Detection
データとして使いやすく整形出力出来るからかllmに検出内容を渡すだけでより巨大なvlmみたいな動きをさせる事も出来るようだ(下記のプロダクトはほんとにMoonDreamの検出トークンをQwQ-32B-Previewに渡してるだけでQwQをvlm化したみたいな事を実現してる)
https://huggingface.co/spaces/suayptalha/QwQ-32B-Preview-Visionsuayptalha/QwQ-32B-Preview-Vision
基本的に日本語には対応していない…が、llmとして対話するよりもVisionデータの情報を取り出す用途に特化したモデルであるためどちらかというとバックエンドの画像認識ツールとして使うことのほうが多そうではあるmorisoba65536.icon
そういう点で言うと上記の強い推論モデルに渡すデータを認識する目的で使うのはかなりありなのかも知れない
VLM
moondream