機械学習で遊びたいときに使えるデータまとめ
GroupLens
Datasets | GroupLens
GroupLensは、推薦システム、オンラインコミュニティ、モバイルおよびユビキタステクノロジ、デジタルライブラリ、地理情報システムに特化したミネソタ大学のコンピュータサイエンスおよびエンジニアリング部門の研究室。
推薦システムの入力データとして利用できるデータセットが用意されている。
映画の視聴履歴データMovieLensが特に有名。
MovieLensは、csv形式で、データの欠落やばらつきがあるので、前処理も含めた処理を行う必要がある。
100k、10M、20Mなどいくつかのデータ量のデータセットがあり、それぞれデータ形式が微妙に違う。
Wikipedia
Wikipedia:データベースダウンロード - Wikipedia
Wikipediaのデータ。
形態素解析を行うような処理で利用される。
データはXML形式で記述されているので、XMLをparseする前処理が必要。
UCIマシンラーニングレポジトリ
UCI Machine Learning Repository: Data Sets
様々な機械学習の論文などで利用されている機械学習用データのリポジトリ。
たくさんのデータセットが登録されている。
各データセットの特徴はあまり見やすくない。
https://www.yelp.com/dataset_challengeYelp Captcha
Yelpが提供しているデータセット。
飲食店の情報やマスキングされた利用者のデータ。
AWSのパブリックデータセット
大規模なデータセットのリポジトリ | AWS のパブリックデータセット
AWSが提供しているデータセット。
Amazon Elastic Block Store (Amazon EBS) スナップショットと Amazon Simple Storage Service (Amazon S3) バケットのいずれかのフォーマットで提供される。
提供されるデータの例:
* AWS でのランドサット: ランドサット 8 号衛星により作成中の地球全土の衛星画像コレクション (解像度は中程度)
* 1000 ゲノムプロジェクト: 人の遺伝的多様性の詳細なマップ
* Google ブックスの N-gram: Google ブックスの N-gram コーパスを含むデータセット
Kaggle
Datasets | Kaggle
機械学習コンペティションKaggleのデータセット。
コンペ用のデータだが、データだけダウンロードしてコンペに応募しなくてもOK。
LIBSVM
LIBSVM Data: Classification, Regression, and Multi-label
LIBSVMは、機械学習に適した形式でデータを読み込むためのオープンソースのAPI及びデータ形式のこと。
このLIBSVMのドキュメントページに、libsvm形式のデータセットの入手先がまとまっている。
データのクラス数や特徴量の数、データ量なども確認できる。
楽天 Rakuten Institute of Technology | 楽天データ公開 楽天技術研究所が大学、公的研究機関の研究での利用のために公開しているデータ。
- 楽天市場 全商品データ (約1億5600万商品)、レビューデータ (約6400万レビュー)
- 楽天トラベル 施設データ (約13万施設)、レビューデータ (約620万レビュー)
- 楽天GORA 施設データ (1,669施設)、レビューデータ (約32万レビュー)
- 楽天レシピ レシピデータ (約80万レシピ)、レシピ画像 (約80万画像)、Pickupレシピ (1,854レシピ)、デイリシャスニュース (362件)
- 楽天Viki ビデオ属性情報 (623本)、ユーザー行動評価 (約488万件
利用できるビッグデータに関するスライドも見つけたので貼っておく。
2017/5/28追記
dataset CV Datasets on the web
GitHub - caesar0301/awesome-public-datasets: An awesome list of high-quality open datasets in public domains (on-going). By everyone, for everyone!学習済みモデル Model Zoo · BVLC/caffe Wiki · GitHub
GitHub - fchollet/deep-learning-models: Keras code and weights files for popular deep learning models.
MXNet Model Zoo — mxnet documentation