Vision Language Model
#VLM
画像
と
テキスト
を同時に解析できる
マルチモーダル
モデル