CLIP
#paper
#機械学習
https://gyazo.com/e52bbfbca43e2b6586c2d680ebfd9635
CLIPによって, image↔textの特徴量変換が容易になったと言える
→
ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge Distillation