cc12m-a woman

「プロセス」は長く、骨の折れる、そして進行中です。

主な手順は次のとおりです。

1. CC12Mの「jsonl」ファイル全体を取得します

2. img2dataset を使用して、ストレージにかろうじて収まる大きなチャンク (200 万枚の画像) をダウンロードします。

3. ランダムに飛び跳ね始め、どのサイトが一貫して彼らのものに透かしを入れているかに気づきます(私はこれらのリストを作成しました、でhttps://huggingface.co/datasets/opendiffusionai/cc12m-cleaned/blob/main/watermarksites )

4. jsonlファイルとダウンロードした画像セットからこれらのもの(「shutterstock.com」など)を除外します

5. 私のダウンロードから、過度に大きいアスペクト比(> 2.0)の画像を特定して捨てます - これはimg2dataset util btw で行うことができます

6. 私が持っているものに対してVLMを実行して、透かし入りの画像を自動識別しようとします。

7. これが非常に遅いことを認識し、実際に作業できるさらに小さなサブセットを作成してください。(「女性」のサブセット)

8. AIタグ付きウォーターマーク画像をサブセットから削除

9. 良いものの中にはまだたくさんのゴミがあることを認識してください(また、まだ捕まっていない透かしもたくさんあります)

10. ゴミを取り除くために手で通過を開始します。