CLIP
#paper #機械学習
https://gyazo.com/e52bbfbca43e2b6586c2d680ebfd9635
CLIPによって, image↔textの特徴量変換が容易になったと言える
→ ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge Distillation