LocateAnything

https://research.nvidia.com/labs/lpr/locate-anything/static/videos/demo.mp4

物体検出を言語生成問題として徹底的に再定義・再学習したVLM

Moon-ViT vision encoder + Qwen2.5 language decoder

https://gyazo.com/fe991ec34a5c6299583104df2e4d000f

NTPは、左から1トークンずつ喋る

LocateAnythingは出力をlocalization形式に制限しているため、その構造に合わせてブロックごとにデコードする