Parrot Captions Teach CLIP to Spot Text
Parrot Captionが含まれたデータセットで学習されたCLIPモデルは画像の内容よりも、画像内のテキストに引っ張られてしまう (OCR的なタスクの性能が上がるが、ゼロショット性能は大幅に下がる)
https://gyazo.com/f92d86715c2a448091cc2ca9adcc923c
画像は"hat"なのに付箋に書かれた"bad"(Text2)にも強く反応してしまっている
Parrot Captionを取り除いたデータセットとCLIPモデルを作成した