機械学習用のデータセット
#データの理解と前処理
機械学習用のデータセット
機械学習の研究用・学習用に、フリーのデータセットが数多く公開されている
機械学習自体の基礎研究にはもちろん、勉強のためにももってこいの素材
理解を深めるためには、ひとつのデータセットだけで学ぶのではなく、さまざまなデータセットを試してみるのがよい
さまざまなデータセットの公開サイト
UCI Machine Learning Repository
https://archive.ics.uci.edu/
機械学習のためのフリーのデータセット配布サイト。20年以上前からある有名どころ
Kaggle
https://www.kaggle.com/datasets
機械学習の最も有名な分析コンペ
アカウントを作れば、コンペに参加しなくてもデータセットはダウンロードできる
参考書(実際的な技術を学びたければおすすめ):『Kaggleで勝つデータ分析の技術』
その他のさまざまなソースを紹介しているサイト(記事)
arXivTimes/datasets at master · arXivTimes/arXivTimes · GitHub
機械学習用データセット一覧(フリー素材) | Md.lab
アクティブに更新され続けている、お勧めの機械学習データセット一覧サイト
scikit-learnで読み込めるサンプルデータセット
scikit-learnではデフォルトでサンプルデータセットが使える
UCI Machine Learning Repositoryにあるデータも多い
参考:scikit-learnのサンプルデータセットの一覧と使い方 | note.nkmk.me
公式ドキュメント:7. Dataset loading utilities — scikit-learn 1.1.2 documentation