Set-of-Mark
https://github.com/microsoft/SoMmicrosoft/SoM
https://arxiv.org/abs/2310.11441Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
https://gyazo.com/cb1c2e3ea447322c8825e517978c449c
GPT-4V(ision)の視覚的なグラウンディング能力を引き出す
GPT-4V(ision)はテキストだけでなく、マスクやボックスなどの視覚的な出力も生成できるようになり、さまざまな細かい視覚タスクに対応できるようになる。
https://gyazo.com/30aeaa031f9aad7b3a23f9c7d1270bb0
https://gyazo.com/48469545c56cb543de4ec648d1f372d3
Mask Dinoに匹敵