Learning Transferable Visual Models From Natural Language Supervision
現在のコンピュータビジョンシステムは、あらかじめ設定された一定の物体カテゴリを予測するように学習される。このような限定された監視の形式は、他の視覚的概念を指定するために追加のラベル付けされたデータが必要であるため、その一般性と使いやすさを制限する。画像に関する生のテキストから直接学習することは、より広範な監視のソースを活用する有望な代替手段である。我々は、インターネットから収集した4億の画像とテキストのペアのデータセットに対して、どの画像にどのキャプションが合うかを予測するという単純な事前学習が、SOTA画像表現をゼロから学習する効率的でスケーラブルな方法であることを証明する。事前学習後、自然言語を用いて学習した視覚的概念(または新しい概念)を参照し、zero-shotで下流のタスクにモデルを転送することが可能である。我々は、30以上の異なる既存のコンピュータビジョンデータセットのベンチマークを行い、このアプローチの性能を研究している。このモデルはほとんどのタスクに自明であり、データセット固有の訓練を必要とせず、完全に教師ありのベースラインと競争できることが多い。例えば、オリジナルのResNet-50は、ImageNetのゼロショットにおいて、128万個の学習例を使用することなく、その精度に匹敵する結果を得ることができました。私たちは、このhttpsのURLで、コードと事前学習したモデルの重みを公開しています。 https://gyazo.com/b12e683c5b8167a9909d813e6f7e7961https://gyazo.com/5f0c7b13e1faf1ff5c848cdda86c6677
CLIPは画像エンコーダとテキストエンコーダを事前に学習させ、データセット内のどの画像がどのテキストと対になっているかを予測します。そして、この動作を利用して、CLIPをゼロショット分類器に変身させます。データセットの全てのクラスを "a photo of a dog "のようなキャプションに変換し、CLIPが推定する与えられた画像と最もよく対になるキャプションのクラスを予測するのです。
Learning Transferable Visual Models From Natural Language Supervision
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever Submitted on 26 Feb 2021