CLIPが数えれるように
CLIP などの大規模な視覚言語モデル (VLM) は、画像とテキストの豊富な結合表現を学習し、ゼロショット分類やテキストから画像への生成など、多数のダウンストリーム タスクの進歩を促進します。それにもかかわらず、既存の VLM には十分に文書化された顕著な制限があり、カウントなどの構成概念をカプセル化できていません。一般的なベンチマークでの全体的なパフォーマンスを維持しながら、VLM の定量的理解を向上させるためのシンプルで効果的な方法を紹介します。 現在の画像生成AIは、入力文で指定された数の対象を正しく生成する性能がまだ弱いが、性能は上がり続けている。それを評価するためのベンチマーク「GeckoNum」において,約1年前のSDXL 1.0は20.5%だが、Imagen 3は58.6%で3倍近い。DALL-E 3から見ても+12.6ポイントで、大幅に改善してる https://gyazo.com/3b76a9baafa6d1f55d683483e12db420