データセット
参考にさせていただいたサイト
国立情報学研究所 データセット共同利用研究開発センター
DataSet - 機械学習の「朱鷺の杜Wiki」
2012年時点のオープンデータ情報源
2012年時点の大規模画像データセットのまとめ
独自に様々なデータを収集・機械可読に整形して公開してくださっている方
日本以外の各国の公共オープンデータへのリンク集
参考にさせていただいたはてなブックマーク
機械可読ではないデータ
日本のオープンデータ
日本のオープンデータ(更新中止)
公共交通オープンデータ協議会
コンビニまっぷ
公衆電話の一覧
海外のオープンデータ
UNdata
APIもある
Data.gov
APIもある
Data.govのデータを活用して作られたアプリケーションの一覧もある
Registry of Open Data on AWS Wikidata
The New York Times Research & Development group
The Guardian
人間向け
国立国会図書館リサーチ・ナビ
辞書や統計などの資料を探せるように分野別にまとめてあるサイト
経済産業省 ベンチャー企業の経営危機データベース
ベンチャー企業の経営危機10選(上記のDBから10個だけ厳選したもの)
失敗学会 失敗知識データベース
失敗百選(上記のDBから100個だけ厳選したもの)
岡山理科大学データ指向統計解析環境
個人が運営している社会調査データ集
日本の各都道府県ごとの様々な統計データ
各省庁や統計局などのデータを元に、グラフや地図で可視化されていて便利
運営者が不明
経済指標
運営者が不明
シソーラス
日本語シソーラス
女性情報
英語シソーラス
医学
統計データAPI
政府統計総合窓口 API機能
各省庁の統計データがまとめられている
統計データAPIエクスプローラー
上記政府統計総合窓口APIを利用してWeb上でデータ閲覧できるようにしている
東日本大震災の福島県内の記録集
機械可読なデータ
R言語
R言語付属のデータセット系ライブラリの一覧
総合
国立情報学研究所データリポジトリ データセット一覧
Yahoo!
知恵袋
楽天
市場
商品データ、レビューデータ
トラベル
施設データ、レビューデータ
GORA
ゴルフ場データ、レビューデータ
レシピ
レシピ情報、レシピ画像
ニコニコ
動画コメント
大百科
リクルート
ホットペッパービューティー
クックパッド
レシピ
献立
LIFULL HOME'S
賃貸データ
間取り図
不満調査
Sansan
名刺
NTCIR(NII Testbeds and Community for Information access Research)
正解データ付きの実験用データセット
楽天データ公開
MeCab用辞書
WordNet
Wikipedia
日本語
N-gram 日本語コーパス
評価値表現辞書
日本語評価極性辞書
はてな
はてなキーワード
言語資源協会 言語資源カタログ
有料会員になる必要がある
ImageNet
WordNetのオントロジーに対応する画像のデータセット、約1400万枚、2万2千カテゴリ
元画像を含んだデータセットは研究機関に所属している研究者にのみ配布。
画像はURLのみ配布、特徴量も配布。
The ImageNet Large Scale Visual Recognition Challenge (ILSVRC)
MIR
Flickerの画像100万枚
CoPhIR
Flickerの画像1億枚
データセットのダウンロードは管理者への申請と許可が必要
マサチューセッツ工科大学
Tiny Images Dataset
32x32ピクセルの非常に小さい画像8000万枚
元画像も配布。特徴量も配布。
SUN dataset
13万枚、900クラス
元画像も配布。特徴量も配布。
顔の画像データセット
トロント大学
CIFAR-10, CIFAR-100
上記Tiny Images Datasetにラベルをつけたデータセット、6万枚、10/100カテゴリ
ジョージア工科大学
Visual Synsets
2億枚の画像、30万個のラベル
画像は元のURLのみ
カリフォルニア工科大学
物体認識用の画像データセット
イリノイ大学
車のデータセット
オックスフォード大学、Visual Geometry Group
あらゆる分野の無数の画像データセットがある
文字列画像
ペットの画像
シンガポール国立大学
NUS-WIDE
Flickrの画像、27万枚、1枚の画像に複数のラベルあり
元画像は含まれていないが特徴量はあり
フランス国立情報学自動制御研究所
人間のデータセット
3種類の画像データセット
歩行者のデータセット
中部大学
物体認識用の画像データセット
国立情報学研究所 音声資源コンソーシアム
地理
IPアドレスから国を推定するためのデータベース
東京都
環境放射線量
都道府県~地名の構造化データ
各都道府県ごとの避難所のデータ
Twitter日本語ユーザーのソーシャルグラフダンプ
社会・文化
アニメ
企業
企業名データ
企業別平均年齢、平均年収データ
AV女優
https://gyazo.com/a42c1207ce55f39823d19e9d5def474c