Parrot Captions Teach CLIP to Spot Text
https://arxiv.org/abs/2312.14232Parrot Captions Teach CLIP to Spot Text
https://github.com/opendatalab/CLIP-Parrot-Biasopendatalab/CLIP-Parrot-Bias
https://huggingface.co/spaces/linyq/CLIP-Parrot-BiasCLIPバイアステスト
LAION-2Bの画像の中には、(ビジュアル)テキストが含まれるものがある
Typographic attack画像というらしい
このテキストをそのまま画像のキャプションにしているものをParrot Caption(オウム返し)ということにする
Parrot Captionが含まれたデータセットで学習されたCLIPモデルは画像の内容よりも、画像内のテキストに引っ張られてしまう
(OCR的なタスクの性能が上がるが、ゼロショット性能は大幅に下がる)
https://gyazo.com/f92d86715c2a448091cc2ca9adcc923c
画像は"hat"なのに付箋に書かれた"bad"(Text2)にも強く反応してしまっている
Parrot Captionを取り除いたデータセットとCLIPモデルを作成した
Typographic attack