学習に使えるデータソース
学習用データセット
データセットとは、単にデータの集まりのことです。公開さrているデータセットの最も単純で最も一般的な形式は、スプレッドシートまたはCSV形式です 。しかし、データセットの中には他の形式で保存されているものもあり、1つのファイルであるとは限りません。そのためデータセットによっては、関連する複数のデータを含むデータテーブルをZIPファイルになっていることもあります。
Googleのクラウド上でアクセスできる多くの公開データセットで、100以上のデータセットがあり、そのすべてがBigQueryとCloud Storageによってホストされています。
無料のデータセットを検索するために作られた検索エンジンです。Google Dataset Searchは、通常のGoogle検索と同じように、提供されたキーワードをもとに検索を行います。キーワードは、データセットの内容ではなく、その説明文にマッチします。
多くのデータセットを保持していて、それらをダウンロードして自分のシステムで使用することができます。また、Amazon Elastic Compute Cloud (Amazon EC2)上でデータを分析することもできます。
Microsoftのオープンデータの検索とダウンロードでき、Azureと連携することができる。
Yahoo Research が公開している、興味深く科学的に有用なデータセット。非商用で利用できる。
DataPortalsは、その名前からわかるように世界中の588のデータポータルへのリンクを持っています。
データソースは、都市や地域をベースにアルファベット順にリストアップされています。各ポータルは、タグ(レベル地域/地方、国、EU公式、ベルリン、OSM、金融など)で簡単に説明されています。
データカタログにある無料のデータセットを発見し、管理し、簡単にアクセスできるようにするためによく整理されたサイト
機械学習研究のためのオープンなデータサイエンス・プラットフォームです。このプラットフォームはとてもすっきりしていて、すべてのセクションが整理されています。ヘルスケア、教育、気候変動、政治、スポーツなど、様々な分野の無料データセットが公開されています。
データサイエンス関係者の間では有名なので、きっと多くの人が知っているはずです。私もよく使うので、ここに紹介します。興味深いデータセットがあり、健康、金融、銀行、教育など、ほとんどすべての異なる側面をカバーしているので、データサイエンス・コミュニティにとって非常に有益です。
UCI Machine Learning Repositoryは、機械学習コミュニティが機械学習アルゴリズムの実証分析に使用するデータベース、ドメイン理論、データジェネレータを集めたものです。
専門家向けに設計され、金融、経済、オルタナティブデータをデータサイエンスコミュニティのための無料のデータセットを提供するリソースです。
銀行の地域やグローバルな実務と密接に連携し、ハイレベルで優れた統計データを取得する唯一のウェブサイトでマクロ、金融、セクターデータベースを保持しています。
農業、気候、エネルギー、海洋、地方自治体、海事、高齢者の健康など、さまざまなカテゴリーごとに分類された無料のデータセットで米国政府によって管理されています。
教育、金融、医療など、ほとんどすべての領域であらゆる種類のデータを公開されているサイトで、インド政府によって管理されています。
Grouplensは、ミネソタ大学のコンピュータサイエンス学部にある研究室です。映画、ローカル地理情報システム、デジタルライブラリ、サイクロパス、ブックレンズなど、エンドツーエンドのデータサイエンス・プロジェクトを開発しています。
さまざまな領域向けに非常によく整理された高品質のフリーのデータセットです。
政治からスポーツ、経済、文化、科学・健康まで幅広いトピックについて、インタラクティブな記事を書き、グラフィックスを作成するサイトです。様々なオープンソースのデータセットから取得した分析的なストーリーを提供してい
Data Science Dojo はデータサイエンスを目指す人たちのためのトレーニングを行っているサイトです。ここに学習用のデータが提供さています。
機械学習などに利用可能な約500近くのデータセットを公開している。
楽天の各種サービスの商品情報の画像やレビュー、レコメンドなどを公開している
Meta(旧称Facebook)が公開している大規模データセット、ツールやライブラリを公開している。
機械学習を行う際に利用可能なデータセットについて、カテゴリー別にまとめたリポジトリ
金融市場のデータ、人口増加から暗号通貨の価格まで、何千ものデータセットを提供している。とくに、コア・データセット は、GDPや国番号のような重要でよく使われる「コア」データを、高品質で使いやすいオープンデータとして提供す ネットワーク分析などに利用可能な、対話的な視覚的分析を備えた最初の科学的ネットワークデータリポジトリ。
統計情報
政府統計の総合窓口(e-stat)
総務省行政管理局が運用するオープンデータに係る情報ポータルサイト
GISIS Ship Particulars (船舶データベース検索)
NYCのタクシーの乗降情報のデータベース
NYC OpenData
NYCが公開しているオープンデータ
スクレイピングの学習などにも使える
日本の電子工業の生産・輸出・輸入、携帯電話やパーソナルコンピュータの国内出荷台数などが公開されいる。
地図情報/GIS
自分の投稿をパブリックドメインとする限り、自由に編集可能な世界地図
50,000 map views / mo まで無料 / それを超えて 1,000 web map views まで 0.5USD アクセス可能
実質的に個人が開発で使用するうちは無料といえる
プライベートや課金サービスで利用をしようとすると499USD/mo
QGIS - オープンソースのデスクトップGISのリーダー (Windows/Mac/Linux)
ブラウザで地図データを表示する、JavaScriptで組まれたオープンソースライブラリ(BSD ライセンス)
GoogleマップやBing Mapsのような、Webブラウザ上で動作するリッチな地図アプリケーションを構築するためのAPIを提供している
オープンソースのデスクトップ及びサーバー用地図描画ツールキット。OpenStreetMapなどのGISデータをレンダリングするときる使える。
MaxMind社 が公開している位置情報データベース: IP / City / Country / Domain / ISP
情報処理の効率化と円滑化に資するため、都道府県コード及び市区町村コードを標準化したもの
画像
機械学習などで利用するための画像データセットについてまとめています。
機械学習のチュートリアルなどでよく利用されるデータセット。
手書き数字MNISTとは異なり、Kuzushiji-MNIS(KMNIST)は。は崩した手書き数字や漢字のデータセットで、ひらがなも含んでいます。
CIFAR-10は10クラスの60000 32×32カラーイメージで構成され、クラスごとに6000イメージがあり、 50000個のトレーニング画像と10000個のテスト画像があります。CIFAR-100はそれぞれ600個の画像を含む100個のクラスがあり、クラスごとに500のトレーニング画像と100のテスト画像があります。
オブジェクトクラス認識用の標準化された画像データセット、データセットと注釈にアクセスするためのツールの共通セットを提供します。
Googleが公開している、約900万の画像のデータセットです。画像レベルのラベル・オブジェクトの境界ボックス・オブジェクトのセグメンテーションマスク・視覚的関係がアノテーションされた画像があります。
大規模な物体検出と画像分類のアルゴリズムを評価するための、ImageNet Large Scale Visual Recognition Challenge(ILSVRC)をダウンロードできる。
画像サイトFlickerからの数1億以上におよぶ画像がダウンロードできる
機械学習のモデルが間違いを犯すように意図的に用意されたデータセット。
プリンスタン大学が公開している、899のカテゴリと130,519の画像を含む広範囲のシーン認識(SUN)データベースです。シーン認識・分類に利用できる。
クラスごとに約200枚の画像を含む37カテゴリのペット画像データセットです。
大規模なオブジェクト検出、セグメンテーション、キャプションのデータセットです。
Zalandoの商品画像のデータセットで、60,000例のトレーニングセットと10,000例のテストセットから構成されている、28x28のグレースケール画像で、10クラスからなるラベルと関連付けられている。。
良好なポーズのショップ画像から制約のない消費者写真まで、80万以上の多様なファッション画像を含んだ画像データセットです。
101種類101,000点の料理のカラー写真(アップルパイや餃子など)の画像データセット
アテネ国立工科大学が公開している、アノテーション付きの世界各都市の画像データやロゴ画像のデータセットです。
40個の属性注釈が付いた20万以上の著名人の画像を含む大規模な顔属性データセットです。
DeepfakesやFace2Faceなどによって生成される、人のフェイク画像を検出するためのデータセットです。
その他
株価情報を無料でダウンロードできるサイト
(株プラス)は、株価データ・投資指標データ等の株式投資関連データを配信する東証公認の情報サービス