Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs
すると多くのMLLMが正しく答えられないのを発見した
CLIP-blind pairによくある9つのパターン
https://gyazo.com/8acbd8612a199b891f6cafe60ae16c8c
https://gyazo.com/42f2331090582f82dc14beaf81334e7a
CLIPとDINOv2それぞれで2つの画像ペアでの埋め込み空間の距離を比較し、それらの差が大きいものを見つける nomadoor.iconなんでCLIPとDINOv2で違う値がでるんですか?
Copilot.iconCLIPは画像とテキストのペアを同じ意味空間にマッピングすることを目指していますが、視覚的な細部にはあまり注意を払いません。
一方、DINOv2は視覚的なパターンと細部を捉えることを目指しています。そのため、同じ画像ペアでもCLIPとDINOv2では異なる埋め込みが生成されます。
人間が2つの画像の違いを探し、その部分を問う質問を作る
MLLMに質問を投げかけ、2つの画像両方で正解したときポイントゲット
体感で分かってたけどStable Diffusionが向きとか数のプロンプト苦手なのはCLIPからも来てるんだなぁnomadoor.icon