データセット
#まとめ
#統計学
#データサイエンス
参考にさせていただいたサイト
https://www.nii.ac.jp/research/centers/dsc/
国立情報学研究所 データセット共同利用研究開発センター
http://ibisforest.org/index.php?DataSet
DataSet - 機械学習の「朱鷺の杜Wiki」
http://lod.sfc.keio.ac.jp/challenge2012/dataset.html
2012年時点のオープンデータ情報源
http://d.hatena.ne.jp/n_hidekey/20120115/1326613794
2012年時点の大規模画像データセットのまとめ
http://yut.hatenablog.com/search?q=データ
独自に様々なデータを収集・機械可読に整形して公開してくださっている方
https://qiita.com/tmp_llc/items/7296c5d6bb8769b18d24
日本以外の各国の公共オープンデータへのリンク集
参考にさせていただいたはてなブックマーク
http://b.hatena.ne.jp/yuiseki/dataset/
http://b.hatena.ne.jp/fumi1/Data/
http://b.hatena.ne.jp/ultraist/nlp/
http://b.hatena.ne.jp/ultraist/cv/
機械可読ではないデータ
日本のオープンデータ
日本のオープンデータ(更新中止)
http://opendata.jpn.org/index.php
公共交通オープンデータ協議会
http://www.odpt.org
コンビニまっぷ
https://cvs-map.jp/
公衆電話の一覧
http://www.ntt-east.co.jp/ptd/
海外のオープンデータ
UNdata
国際連合の提供しているデータリポジトリ
http://data.un.org/
APIもある
http://data.un.org/Host.aspx?Content=API
Data.gov
アメリカ合衆国の総合データリポジトリ
https://www.data.gov/
APIもある
https://www.data.gov/developers/apis
Data.govのデータを活用して作られたアプリケーションの一覧もある
https://www.data.gov/applications
Google Public Data Exploler
https://www.google.com/publicdata/directory
Registry of Open Data on AWS
https://registry.opendata.aws/
Wikidata
Wikipedia上の各項目のデータを機械可読にアノテーションしようという試み
https://www.wikidata.org/wiki/Wikidata:Introduction
https://www.opendatanetwork.com/
The New York Times Research & Development group
http://nytlabs.com/
The Guardian
https://www.theguardian.com/data
人間向け
国立国会図書館リサーチ・ナビ
辞書や統計などの資料を探せるように分野別にまとめてあるサイト
http://rnavi.ndl.go.jp/rnavi/
経済産業省 ベンチャー企業の経営危機データベース
http://www.meti.go.jp/policy/newbusiness/kikidatabase/index.html
ベンチャー企業の経営危機10選(上記のDBから10個だけ厳選したもの)
http://www.meti.go.jp/policy/newbusiness/kikidatabase/index2.html#ven10
失敗学会 失敗知識データベース
http://www.shippai.org/fkd/index.html
失敗百選(上記のDBから100個だけ厳選したもの)
http://www.sozogaku.com/fkd/lis/hyaku_lis.html
岡山理科大学データ指向統計解析環境
http://mo161.soci.ous.ac.jp/@d/indexj.html
個人が運営している社会調査データ集
http://www2.ttcn.ne.jp/honkawa/
日本の各都道府県ごとの様々な統計データ
各省庁や統計局などのデータを元に、グラフや地図で可視化されていて便利
運営者が不明
http://47s.jp/
経済指標
運営者が不明
http://ecodb.net/
シソーラス
日本語シソーラス
https://thesaurus.weblio.jp/
https://dbs.g-search.or.jp/jdsub/thesaurus/thesaurus_index.htm
女性情報
http://winet.nwec.jp/cgi-bin/thesaurus/class/r_search.cgi
英語シソーラス
https://eric.ed.gov/
http://www.getty.edu/research/tools/vocabularies/index.html
医学
https://www.nlm.nih.gov/mesh/meshhome.html
統計データAPI
政府統計総合窓口 API機能
各省庁の統計データがまとめられている
https://www.e-stat.go.jp/api/
https://www.e-stat.go.jp/api/api-data
統計データAPIエクスプローラー
上記政府統計総合窓口APIを利用してWeb上でデータ閲覧できるようにしている
http://ecitizen.jp/statdb/
http://ja.dbpedia.org/
Wikipedia日本語版をLinked Open DataとしてSPARQLで操作可能にしている
http://ja.dbpedia.org/sparql
http://fukushima.archive-disasters.jp/
東日本大震災の福島県内の記録集
SPARQLに対応している
http://fukushima.archive-disasters.jp/sparqlendpoint/
機械可読なデータ
R言語
R言語付属のデータセット系ライブラリの一覧
http://d.hatena.ne.jp/hoxo_m/20120214/p1
https://qiita.com/wakuteka/items/95ac758070f6f4d89a96
http://stat.ethz.ch/R-manual/R-patched/library/datasets/html/00Index.html
総合
国立情報学研究所データリポジトリ データセット一覧
https://www.nii.ac.jp/dsc/idr/datalist.html
Yahoo!
知恵袋
楽天
市場
商品データ、レビューデータ
トラベル
施設データ、レビューデータ
GORA
ゴルフ場データ、レビューデータ
レシピ
レシピ情報、レシピ画像
ニコニコ
動画コメント
大百科
リクルート
ホットペッパービューティー
クックパッド
レシピ
献立
LIFULL HOME'S
賃貸データ
間取り図
不満調査
Sansan
名刺
NTCIR(NII Testbeds and Community for Information access Research)
正解データ付きの実験用データセット
http://research.nii.ac.jp/ntcir/index-ja.html
楽天データ公開
https://rit.rakuten.co.jp/data_release_ja/
自然言語処理
MeCab用辞書
https://engineering.linecorp.com/ja/blog/detail/109
https://github.com/neologd/mecab-ipadic-neologd
WordNet
https://ja.wikipedia.org/wiki/WordNet
https://wordnet.princeton.edu/
Wikipedia
https://dumps.wikimedia.org/
日本語
http://www.mwsoft.jp/programming/munou/wikipedia_data_list.html
https://ja.wikipedia.org/wiki/Wikipedia:データベースダウンロード
https://dumps.wikimedia.org/jawiki/latest/
N-gram 日本語コーパス
http://s-yata.jp/corpus/nwc2010/ngrams/
評価値表現辞書
http://www.syncha.org/evaluative_expressions.html
http://www.syncha.org/open_dic/index.html
日本語評価極性辞書
http://www.cl.ecei.tohoku.ac.jp/index.php?Open%20Resources%2FJapanese%20Sentiment%20Polarity%20Dictionary
はてな
はてなキーワード
http://developer.hatena.ne.jp/ja/documents/keyword/misc/catalog
言語資源協会 言語資源カタログ
有料会員になる必要がある
http://www.gsk.or.jp/service/buying/
http://www.gsk.or.jp/catalog/
画像処理、画像認識
ImageNet
WordNetのオントロジーに対応する画像のデータセット、約1400万枚、2万2千カテゴリ
元画像を含んだデータセットは研究機関に所属している研究者にのみ配布。
画像はURLのみ配布、特徴量も配布。
http://www.image-net.org/
http://image-net.org/download
The ImageNet Large Scale Visual Recognition Challenge (ILSVRC)
http://www.image-net.org/challenges/LSVRC/
MIR
Flickerの画像100万枚
http://press.liacs.nl/mirflickr/
CoPhIR
Flickerの画像1億枚
データセットのダウンロードは管理者への申請と許可が必要
http://cophir.isti.cnr.it/whatis.html
マサチューセッツ工科大学
Tiny Images Dataset
32x32ピクセルの非常に小さい画像8000万枚
元画像も配布。特徴量も配布。
http://groups.csail.mit.edu/vision/TinyImages/
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
SUN dataset
13万枚、900クラス
元画像も配布。特徴量も配布。
http://vision.princeton.edu/projects/2010/SUN/
顔の画像データセット
http://cbcl.mit.edu/software-datasets/FaceData.html
http://cbcl.mit.edu/software-datasets/FaceData2.html
トロント大学
CIFAR-10, CIFAR-100
上記Tiny Images Datasetにラベルをつけたデータセット、6万枚、10/100カテゴリ
http://www.cs.toronto.edu/~kriz/cifar.html
ジョージア工科大学
Visual Synsets
2億枚の画像、30万個のラベル
画像は元のURLのみ
http://cpl.cc.gatech.edu/projects/VisualSynset/
カリフォルニア工科大学
物体認識用の画像データセット
http://www.vision.caltech.edu/Image_Datasets/Caltech101/Caltech101.html
http://www.vision.caltech.edu/Image_Datasets/Caltech256/
イリノイ大学
車のデータセット
http://cogcomp.org/Data/Car/
オックスフォード大学、Visual Geometry Group
あらゆる分野の無数の画像データセットがある
http://www.robots.ox.ac.uk/~vgg/data/
文字列画像
http://www.robots.ox.ac.uk/~vgg/data/text/
ペットの画像
http://www.robots.ox.ac.uk/~vgg/data/pets/
シンガポール国立大学
NUS-WIDE
Flickrの画像、27万枚、1枚の画像に複数のラベルあり
元画像は含まれていないが特徴量はあり
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
フランス国立情報学自動制御研究所
人間のデータセット
http://pascal.inrialpes.fr/data/human/
3種類の画像データセット
http://lear.inrialpes.fr/~jegou/data.php
歩行者のデータセット
http://www.lookingatpeople.com/Datasets/datasets.html
http://www.lookingatpeople.com/download-daimler-ped-class-benchmark/index.html
http://www.lookingatpeople.com/Datasets/Daimler_Pedestrian_Benchmark_D/daimler_pedestrian_benchmark_d.html
中部大学
物体認識用の画像データセット
http://mprg.jp/research/apc_dataset_2015_j?cat=dataset
http://mprg.jp/research/arc_dataset_2017_j?cat=dataset
音声認識
国立情報学研究所 音声資源コンソーシアム
http://research.nii.ac.jp/src/
地理
IPアドレスから国を推定するためのデータベース
https://dev.maxmind.com/geoip/legacy/geolite/
https://dev.maxmind.com/geoip/geoip2/geolite2/
東京都
環境放射線量
http://monitoring.tokyo-eiken.go.jp/index.html
http://monitoring.tokyo-eiken.go.jp/monitoring/hourly_data.html
都道府県~地名の構造化データ
http://yut.hatenablog.com/entry/20130415/1365956662
https://github.com/yutakikuchi/Data/blob/master/zipcode.yaml
各都道府県ごとの避難所のデータ
http://yut.hatenablog.com/entry/20131015/1381792179
https://github.com/yutakikuchi/Data/shelter
ソーシャルネットワーク
Twitter日本語ユーザーのソーシャルグラフダンプ
http://code46.hatenablog.com/entry/20110130/p1
https://github.com/penguinco/yats-socialgraph-dump
社会・文化
アニメ
https://github.com/anilogia/animedb
企業
企業名データ
http://yut.hatenablog.com/entry/20130210/1360456363
https://github.com/yutakikuchi/Data/blob/master/corps.txt
企業別平均年齢、平均年収データ
http://yut.hatenablog.com/entry/20130318/1363563531
https://github.com/yutakikuchi/Data/blob/master/corps_age_income.txt
AV女優
http://yut.hatenablog.com/entry/20130719/1374191188
https://github.com/yutakikuchi/Data/blob/master/ero.tsv
https://gyazo.com/a42c1207ce55f39823d19e9d5def474c