HuggingFaceFW/fineweb
https://huggingface.co/datasets/HuggingFaceFW/fineweb
Claude 3 Opus.icon
基素.icon
🍷
FineWeb
は、2013年〜2024年の
CommonCrawl
から収集した15兆トークン以上の大規模で高品質な英語ウェブデータセットです。以下がその特徴です。
LLMの性能を最適化するために注意深く処理・フィルタリング・重複除去されている
Falcon RefinedWeb
、
C4
、
Dolma-v1.6
、
The Pile
、
SlimPajama
などの他の高品質ウェブデータセットよりもベンチマークタスクで高い性能を示す
ODC-By 1.0ライセンスで全データセットを公開
datatroveライブラリを用いた処理パイプラインのコードも全て公開し、結果を完全に再現可能
パーソナル情報の匿名化などのプライバシー保護処理も施されている
ウェブ全体からのデータのため有害なバイアスなども含まれ得る点に注意が必要
コードデータは少ない可能性があるので、コードタスクには
The Stack v2
などの追加を推奨