Parrot Captions Teach CLIP to Spot Text

https://arxiv.org/abs/2312.14232Parrot Captions Teach CLIP to Spot Text

LAION-2Bの画像の中には、(ビジュアル)テキストが含まれるものがある

このテキストをそのまま画像のキャプションにしているものをParrot Caption(オウム返し)ということにする

Parrot Captionが含まれたデータセットで学習されたCLIPモデルは画像の内容よりも、画像内のテキストに引っ張られてしまう

(OCR的なタスクの性能が上がるが、ゼロショット性能は大幅に下がる)

https://gyazo.com/f92d86715c2a448091cc2ca9adcc923c

画像は"hat"なのに付箋に書かれた"bad"(Text2)にも強く反応してしまっている

Parrot Captionを取り除いたデータセットとCLIPモデルを作成した