CLIP
2021年にOpenAIから公開されたマルチモーダルの画像認識モデル.
DALL-EやStable Diffusionなどに使用されている
Webから収集した画像とキャプションのペアを用いて事前学習を行っている.
Transformerであるテキストエンコーダと画像エンコーダから構成されている.
画像とテキストのコサイン類似度を計算することで画像分類を行っている.