学習に使えるデータソース
学習用データセット
データセットとは、単にデータの集まりのことです。公開さrているデータセットの最も単純で最も一般的な形式は、スプレッドシートまたはCSV形式です 。しかし、データセットの中には他の形式で保存されているものもあり、1つのファイルであるとは限りません。そのためデータセットによっては、関連する複数のデータを含むデータテーブルをZIPファイルになっていることもあります。
Google Cloud Public Datasets
Googleのクラウド上でアクセスできる多くの公開データセットで、100以上のデータセットがあり、そのすべてがBigQueryとCloud Storageによってホストされています。
Google Dataset Serach
無料のデータセットを検索するために作られた検索エンジンです。Google Dataset Searchは、通常のGoogle検索と同じように、提供されたキーワードをもとに検索を行います。キーワードは、データセットの内容ではなく、その説明文にマッチします。
Amazon Web Services Open Data Registry
多くのデータセットを保持していて、それらをダウンロードして自分のシステムで使用することができます。また、Amazon Elastic Compute Cloud (Amazon EC2)上でデータを分析することもできます。
Microsoft Research Open Data
Microsoftのオープンデータの検索とダウンロードでき、Azureと連携することができる。
Yahoo Webscope
Yahoo Research が公開している、興味深く科学的に有用なデータセット。非商用で利用できる。
DataPortal
DataPortalsは、その名前からわかるように世界中の588のデータポータルへのリンクを持っています。
データソースは、都市や地域をベースにアルファベット順にリストアップされています。各ポータルは、タグ(レベル地域/地方、国、EU公式、ベルリン、OSM、金融など)で簡単に説明されています。
Data World
データカタログにある無料のデータセットを発見し、管理し、簡単にアクセスできるようにするためによく整理されたサイト
OpenML
機械学習研究のためのオープンなデータサイエンス・プラットフォームです。このプラットフォームはとてもすっきりしていて、すべてのセクションが整理されています。ヘルスケア、教育、気候変動、政治、スポーツなど、様々な分野の無料データセットが公開されています。
Kaggle dataset
データサイエンス関係者の間では有名なので、きっと多くの人が知っているはずです。私もよく使うので、ここに紹介します。興味深いデータセットがあり、健康、金融、銀行、教育など、ほとんどすべての異なる側面をカバーしているので、データサイエンス・コミュニティにとって非常に有益です。
UCI ML Repo
UCI Machine Learning Repositoryは、機械学習コミュニティが機械学習アルゴリズムの実証分析に使用するデータベース、ドメイン理論、データジェネレータを集めたものです。
Quandl
専門家向けに設計され、金融、経済、オルタナティブデータをデータサイエンスコミュニティのための無料のデータセットを提供するリソースです。
World Bank Data
銀行の地域やグローバルな実務と密接に連携し、ハイレベルで優れた統計データを取得する唯一のウェブサイトでマクロ、金融、セクターデータベースを保持しています。
Data.gov
農業、気候、エネルギー、海洋、地方自治体、海事、高齢者の健康など、さまざまなカテゴリーごとに分類された無料のデータセットで米国政府によって管理されています。
Data.gov.in
教育、金融、医療など、ほとんどすべての領域であらゆる種類のデータを公開されているサイトで、インド政府によって管理されています。
Grouplens
Grouplensは、ミネソタ大学のコンピュータサイエンス学部にある研究室です。映画、ローカル地理情報システム、デジタルライブラリ、サイクロパス、ブックレンズなど、エンドツーエンドのデータサイエンス・プロジェクトを開発しています。
Awesome Public Datasets
さまざまな領域向けに非常によく整理された高品質のフリーのデータセットです。
Fivethirtyeight
政治からスポーツ、経済、文化、科学・健康まで幅広いトピックについて、インタラクティブな記事を書き、グラフィックスを作成するサイトです。様々なオープンソースのデータセットから取得した分析的なストーリーを提供してい
Data Science Dojo - datasets
Data Science Dojo はデータサイエンスを目指す人たちのためのトレーニングを行っているサイトです。ここに学習用のデータが提供さています。
Harvard Dataverse
機械学習などに利用可能な約500近くのデータセットを公開している。
楽天研究所 データリリース
楽天の各種サービスの商品情報の画像やレビュー、レコメンドなどを公開している
Meta AI
Meta(旧称Facebook)が公開している大規模データセット、ツールやライブラリを公開している。
arXivTimes
機械学習を行う際に利用可能なデータセットについて、カテゴリー別にまとめたリポジトリ
Datahub
金融市場のデータ、人口増加から暗号通貨の価格まで、何千ものデータセットを提供している。とくに、コア・データセット は、GDPや国番号のような重要でよく使われる「コア」データを、高品質で使いやすいオープンデータとして提供す
Network Repository
ネットワーク分析などに利用可能な、対話的な視覚的分析を備えた最初の科学的ネットワークデータリポジトリ。
統計情報
e-stat.go.jp https://www.e-stat.go.jp/
政府統計の総合窓口(e-stat)  
Data.go.jp http://www.data.go.jp/
総務省行政管理局が運用するオープンデータに係る情報ポータルサイト
International Marine Organaization (IMO) の GISIS https://gisis.imo.org/Public/Default.aspx
GISIS Ship Particulars (船舶データベース検索)
NYC Taxi and Limousine Commission (TLC) http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml
NYCのタクシーの乗降情報のデータベース
NYC OpenData
NYCが公開しているオープンデータ
Wikipedia 都道府県の人口一覧 - http://a.wikipedia.org/wiki/都道府県の人口一覧
スクレイピングの学習などにも使える
JEITA 電子情報技術産業協会 統計情報 https://www.jeita.or.jp/japanese/stat/
日本の電子工業の生産・輸出・輸入、携帯電話やパーソナルコンピュータの国内出荷台数などが公開されいる。
地図情報/GIS
OpenStreetMap - https://www.openstreetmap.org/user/iisaka51/confirm
自分の投稿をパブリックドメインとする限り、自由に編集可能な世界地図
Javascript ライブリ leafletjs と組み合わせてモバイル対応にもできる
MapBox - https://www.mapbox.com/
50,000 map views / mo まで無料 / それを超えて 1,000 web map views まで 0.5USD アクセス可能
実質的に個人が開発で使用するうちは無料といえる
プライベートや課金サービスで利用をしようとすると499USD/mo
QGIS - https://www.qgis.org/ja/site/index.html
QGIS - オープンソースのデスクトップGISのリーダー (Windows/Mac/Linux)
OpenLayers - https://openlayers.org/
ブラウザで地図データを表示する、JavaScriptで組まれたオープンソースライブラリ(BSD ライセンス)
GoogleマップやBing Mapsのような、Webブラウザ上で動作するリッチな地図アプリケーションを構築するためのAPIを提供している
MapLink - https://mapnik.org/
オープンソースのデスクトップ及びサーバー用地図描画ツールキット。OpenStreetMapなどのGISデータをレンダリングするときる使える。
GeoIP Downloadable Database - https://dev.maxmind.com/geoip/geoip2/downloadable/
MaxMind社 が公開している位置情報データベース: IP / City / Country / Domain / ISP
全国地方公共団体コード - http://www.soumu.go.jp/denshijiti/code.html
情報処理の効率化と円滑化に資するため、都道府県コード及び市区町村コードを標準化したもの
画像
機械学習などで利用するための画像データセットについてまとめています。
MNIST
機械学習のチュートリアルなどでよく利用されるデータセット。
KMNIST
手書き数字MNISTとは異なり、Kuzushiji-MNIS(KMNIST)は。は崩した手書き数字や漢字のデータセットで、ひらがなも含んでいます。
CIFAR-10 / CIFAR – 100
CIFAR-10は10クラスの60000 32×32カラーイメージで構成され、クラスごとに6000イメージがあり、 50000個のトレーニング画像と10000個のテスト画像があります。CIFAR-100はそれぞれ600個の画像を含む100個のクラスがあり、クラスごとに500のトレーニング画像と100のテスト画像があります。
Pascal VOC Dataset
オブジェクトクラス認識用の標準化された画像データセット、データセットと注釈にアクセスするためのツールの共通セットを提供します。
Google Open Image
Googleが公開している、約900万の画像のデータセットです。画像レベルのラベル・オブジェクトの境界ボックス・オブジェクトのセグメンテーションマスク・視覚的関係がアノテーションされた画像があります。
ImageNet
大規模な物体検出と画像分類のアルゴリズムを評価するための、ImageNet Large Scale Visual Recognition Challenge(ILSVRC)をダウンロードできる。
CoPhIR
画像サイトFlickerからの数1億以上におよぶ画像がダウンロードできる
Natural Adversarial Examples
機械学習のモデルが間違いを犯すように意図的に用意されたデータセット。
SUN dataset
プリンスタン大学が公開している、899のカテゴリと130,519の画像を含む広範囲のシーン認識(SUN)データベースです。シーン認識・分類に利用できる。
The Oxford-IIIT Pet Dataset
クラスごとに約200枚の画像を含む37カテゴリのペット画像データセットです。
COCO – Common Object in Context
大規模なオブジェクト検出、セグメンテーション、キャプションのデータセットです。
Fashion-MNIST
Zalandoの商品画像のデータセットで、60,000例のトレーニングセットと10,000例のテストセットから構成されている、28x28のグレースケール画像で、10クラスからなるラベルと関連付けられている。。
Deep Fashion
良好なポーズのショップ画像から制約のない消費者写真まで、80万以上の多様なファッション画像を含んだ画像データセットです。
Food 101
101種類101,000点の料理のカラー写真(アップルパイや餃子など)の画像データセット
Flickr Logos dataset
アテネ国立工科大学が公開している、アノテーション付きの世界各都市の画像データやロゴ画像のデータセットです。
CelebA Dataset
40個の属性注釈が付いた20万以上の著名人の画像を含む大規模な顔属性データセットです。
FaceForensics
DeepfakesやFace2Faceなどによって生成される、人のフェイク画像を検出するためのデータセットです。
その他
株価情報を無料でダウンロードできるサイト
株式投資メモ
無尽蔵
株価データ倉庫
KABU+
(株プラス)は、株価データ・投資指標データ等の株式投資関連データを配信する東証公認の情報サービス