机器学习数据集哪里找:优秀数据集来源盘点

2019 年 1 月 30 日 云栖社区

云栖君导读:很难找到一个特定的数据集来解决对应的机器学习问题,这是非常痛苦的。下面的网址列表不仅包含用于实验的大型数据集,还包含描述、使用示例等,在某些情况下还包含用于解决与该数据集相关的机器学习问题的算法代码。


1 -Kaggle数据集


网址:

https://www.kaggle.com/datasets 


这是我最喜欢的数据集网站之一。每个数据集都有对应的一个小型社区,你可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。该网站包含大量形状、大小、格式各异的真实数据集。你还可以看到与每个数据集相关的“内核”,其中许多不同的数据科学家提供了笔记来分析数据集。有时在某些特定的数据集中,你可以从笔记中找到相应的算法,解决预测问题。


2 -亚马逊数据集


网址:

https://registry.opendata.aws 


该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。它也有一个搜索框来帮助你找到你正在寻找的数据集,另外它还有数据集描述和使用示例,这是非常简单、实用的!


3- UCI机器学习库:


网址:

https://archive.ics.uci.edu/ml/datasets.html 

 


这是加州大学信息与计算机科学学院的一个数据库,包含了100多个数据集。它根据机器学习问题的类型对数据集进行分类。你可以找到单变量、多变量、分类、回归或者是推荐系统的数据集。UCI的某些数据集已经更新完毕并准备使用。


4-谷歌的数据集搜索引擎:


网址:

https://toolbox.google.com/datasetsearch 

 


在2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务。它是一个可以按名称搜索数据集的工具箱。谷歌的目标是统一成千上万个不同的数据集存储库,使这些数据能够被发现。


5 -微软数据集:


网址:

https://msropendata.com 


2018年7月,微软与外部研究社区共同宣布推出“微软研究开放数据”。


它在公共云中包含一个数据存储库,用于促进全球研究社区之间的协作。另外它还提供了一组在已发表的研究中使用的、经过整理的数据集。


6-Awesome公共数据集:


网址:

https://github.com/awesomedata/awesome-public-datasets 


这是一个按照主题分类的,由社区公开维护的一系列数据集清单,比如生物学、经济学、教育学等。这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,你应该检查相应的许可要求。


7 -政府数据集:


政府的相关数据集也很容易找到。许多国家为了提高知名度,向公众分享了各种数据集。例如:


欧盟开放数据门户:欧洲政府数据集。

https://data.europa.eu/euodp/data/dataset


新西兰政府数据集。

https://catalogue.data.govt.nz/dataset


印度政府数据集。

https://data.gov.in/


8-计算机视觉数据集:


网址:

https://www.visualdata.io 


如果你从事图像处理、计算机视觉或者是深度学习,那么这应该是你的实验获取数据的重要来源之一。


该数据集包含一些可以用来构建计算机视觉(CV)模型的大型数据集。你可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。


综上所述,从我所观察到的情况来看,越来越多的用于研究机器学习的各种数据集变得更容易获取,维护这些新数据集的社区,也将不断地发展,使计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。


本文由阿里云云栖社区组织翻译。
文章原标题《Top Sources For Machine Learning Datasets》,译者:黄小凡,审校:袁虎。


终于等到你!阿里正式向 Apache Flink 贡献 Blink 源码


2019年开发者必读!20位阿里技术大牛们帮你列了一份经典书单!


老代码多=过度耦合=if else?阿里巴巴工程师这样捋直老代码

登录查看更多
9

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
331+阅读 · 2020年3月17日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
211+阅读 · 2020年2月21日
自动机器学习:最新进展综述
专知会员服务
116+阅读 · 2019年10月13日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
干货收藏丨50个史上最佳机器学习公共数据集
七月在线实验室
5+阅读 · 2019年1月20日
资源 | 机器学习高质量数据集大合辑(附链接)
数据派THU
6+阅读 · 2018年11月25日
最强数据集集合:50个最佳机器学习公共数据集丨资源
深度学习世界
4+阅读 · 2018年11月6日
资源 | 一份非常全面的开源数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年9月7日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
Python & 机器学习之项目实践 | 赠书
人工智能头条
12+阅读 · 2017年12月26日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
Arxiv
4+阅读 · 2019年12月2日
Arxiv
11+阅读 · 2018年7月8日
Arxiv
3+阅读 · 2018年2月24日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关VIP内容
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
331+阅读 · 2020年3月17日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
211+阅读 · 2020年2月21日
自动机器学习:最新进展综述
专知会员服务
116+阅读 · 2019年10月13日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
相关资讯
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
干货收藏丨50个史上最佳机器学习公共数据集
七月在线实验室
5+阅读 · 2019年1月20日
资源 | 机器学习高质量数据集大合辑(附链接)
数据派THU
6+阅读 · 2018年11月25日
最强数据集集合:50个最佳机器学习公共数据集丨资源
深度学习世界
4+阅读 · 2018年11月6日
资源 | 一份非常全面的开源数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年9月7日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
Python & 机器学习之项目实践 | 赠书
人工智能头条
12+阅读 · 2017年12月26日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
相关论文
Top
微信扫码咨询专知VIP会员