焼肉が食べたい

ただの日記です。技術的に学んだことも書こうと思っていますが、あくまで自分用メモです。

機械学習で遊びたいときに使えるデータまとめ

GroupLens

Datasets | GroupLens GroupLensは、推薦システム、オンラインコミュニティ、モバイルおよびユビキタステクノロジ、デジタルライブラリ、地理情報システムに特化したミネソタ大学のコンピュータサイエンスおよびエンジニアリング部門の研究室。
推薦システムの入力データとして利用できるデータセットが用意されている。
映画の視聴履歴データMovieLensが特に有名。
MovieLensは、csv形式で、データの欠落やばらつきがあるので、前処理も含めた処理を行う必要がある。
100k、10M、20Mなどいくつかのデータ量のデータセットがあり、それぞれデータ形式が微妙に違う。

Wikipedia

Wikipedia:データベースダウンロード - Wikipedia Wikipediaのデータ。
形態素解析を行うような処理で利用される。
データはXML形式で記述されているので、XMLをparseする前処理が必要。

UCIマシンラーニングレポジトリ

UCI Machine Learning Repository: Data Sets 様々な機械学習の論文などで利用されている機械学習用データのリポジトリ
たくさんのデータセットが登録されている。 各データセットの特徴はあまり見やすくない。

https://www.yelp.com/dataset_challengeYelp Captcha Yelpが提供しているデータセット
飲食店の情報やマスキングされた利用者のデータ。

AWSのパブリックデータセット

大規模なデータセットのリポジトリ | AWS のパブリックデータセット AWSが提供しているデータセットAmazon Elastic Block Store (Amazon EBS) スナップショットと Amazon Simple Storage Service (Amazon S3) バケットのいずれかのフォーマットで提供される。
提供されるデータの例: * AWS でのランドサット: ランドサット 8 号衛星により作成中の地球全土の衛星画像コレクション (解像度は中程度) * 1000 ゲノムプロジェクト: 人の遺伝的多様性の詳細なマップ * Google ブックスN-gram: Google ブックスN-gram コーパスを含むデータセット

Kaggle

Datasets | Kaggle 機械学習コンペティションKaggleのデータセット
コンペ用のデータだが、データだけダウンロードしてコンペに応募しなくてもOK。

LIBSVM

LIBSVM Data: Classification, Regression, and Multi-label LIBSVMは、機械学習に適した形式でデータを読み込むためのオープンソースAPI及びデータ形式のこと。
このLIBSVMのドキュメントページに、libsvm形式のデータセットの入手先がまとまっている。
データのクラス数や特徴量の数、データ量なども確認できる。

楽天 Rakuten Institute of Technology | 楽天データ公開 楽天技術研究所が大学、公的研究機関の研究での利用のために公開しているデータ。

  • 楽天市場 全商品データ (約1億5600万商品)、レビューデータ (約6400万レビュー)
  • 楽天トラベル 施設データ (約13万施設)、レビューデータ (約620万レビュー)
  • 楽天GORA 施設データ (1,669施設)、レビューデータ (約32万レビュー)
  • 楽天レシピ レシピデータ (約80万レシピ)、レシピ画像 (約80万画像)、Pickupレシピ (1,854レシピ)、デイリシャスニュース (362件)
  • 楽天Viki ビデオ属性情報 (623本)、ユーザー行動評価 (約488万件

利用できるビッグデータに関するスライドも見つけたので貼っておく。

www.slideshare.net

2017/5/28追記