CLIP
2021年
に
OpenAI
から公開された
マルチモーダル
の
画像認識
モデル
.
DALL-E
や
Stable Diffusion
などに使用されている
Web
から収集した
画像
と
キャプション
のペアを用いて
事前学習
を行っている.
Transformer
である
テキストエンコーダ
と
画像エンコーダ
から構成されている.
画像
と
テキスト
の
コサイン類似度
を計算することで
画像分類
を行っている.