VLM
CLIPなどの画像からテキストを抽出する視覚言語モデル https://gyazo.com/4fefe453ff420ef51be93a000c3f2e35
VLMが純粋なVisionモデルに対して有利な点として「物体同士の位置関係などの空間把握能力がつく」「ゼロショットで学習可能(プロンプトに追従し)で、訓練データにない物体を認識できる」「状況把握が可能になる」等のメリットがあり、小型の分類機として使うにも有効なようだ。
具体的には「表組みのような意味を持ったテキスト配置の認識」や「スポーツと言った概念的な動作の認識」と言った純粋な物体検出では困難なタスクがいくつかあり、そのような従来のOCRや物体検出で困難なタスクに使う用途がある。 この用途を主軸に考えるとvlmはなるべくシンプルに小型なモデルであることを是となるようだmorisoba65536.icon