基盤モデル
画像
と
テキスト
など異なる
モダリティ
でも同じものを指しているならば同じであるとして捉える
モデル
.
CLIP
画像
からの
特徴
と
テキスト
からの
特徴
を同じとして扱う.