基盤モデル
画像とテキストなど異なるモダリティでも同じものを指しているならば同じであるとして捉えるモデル.
CLIP
画像からの特徴とテキストからの特徴を同じとして扱う.