VLM
VLMs
vision language model
CLIP
などの画像からテキストを抽出する視覚言語モデル
https://github.com/gokayfem/Awesome-VLM-Architectures
gokayfem
/Awesome-VLM-Architectures
https://gyazo.com/4fefe453ff420ef51be93a000c3f2e35