CC12M
https://gyazo.com/1e715a3a3fee6867d8bd08a209bc383d
Conceptual 12M (CC12M) は、視覚と言語の事前学習に使用することを目的とした、~1,200 万の画像とテキストのペアを含むデータセットです。 これは、画像キャプションモデルの事前トレーニングとエンドツーエンドのトレーニングに広く使用されているデータセットである Conceptual Captions (CC3M) よりも大きく、はるかに多様な視覚概念のセットをカバーしています。