捡漏!用谷歌图片搜索自制深度学习数据集 | 教程

2018 年 10 月 30 日 量子位
铜灵 编译整理
量子位 出品 | 公众号 QbitAI

就怕前脚刚立志搞个新研究,后脚就发现没有合适的数据集可用。AI工程师从入门到放弃,可能就是这么一会的功夫。

别找了,现在深度学习数据集也能自制了。

在这份教程中,来自fast.ai的小哥哥Francisco Ingham就想手把手教你,如何利用谷歌图片搜索,DIY一份自己的深度学习数据集出来,还不会违反谷歌服务条例。

整装待发,这样的好事其实需要六步就够了。

Let’s Go

第1步:搜索图像

非常简单,就像平时在谷歌图片中查找图像一样,输入关键词,搜索你感兴趣的图像。

谷歌图像最多显示700张图像,所以一页到底再点击“显示更多”,直到加载完毕。

小窍门:输入的关键词越精准,最后得到的数据集质量也越高。

第2步:下载图片

在浏览器中运行下面这段Javascript代码,创建数据集中所有图像的URL:

然后将这些URL保存到一个文件夹中,以备后用。

第3步:创建目录将URL传至服务器

上一步的成果,现在可以拿来用了。不过先得创建一个项目目录。作者将其命名为mkdir MyProject,不过“MyProject”可以替换成你喜欢的项目名字。

按下“Upload”键,将上传URL地址一键上传到这个目录中。

第4步:下载图像

上传到上面目录后,就能把它们从各自的URL下载下来,得到了初版数据集。

也不麻烦,,每个目录中都需要运行一次下面这段代码:

download_images(path/file, dest, max_pics=200)

只需要指定URL文件名和目标文件,就能自动下载保存,在本地就能打开图像了。

Tips:要下载图像的数量可以自己选择。

第5步:筛选图像

查看新鲜出炉的图像,可能会发现一些不需要的图像,此时就需要你手动去筛选和删除它们了。

如果一开始在谷歌搜索中的关键词没有设置好,那这一步可能得多费点时间喽。

第6步:准备训练目录

和数据集的众多兄弟姐妹一样,在开始使用它前,最好还是把里面的图片分成训练、验证和测试集。

过完这道坎,你就拥有了一个DIY的深度学习数据集了,此时有没有感觉赞赞的?

传送门

GitHub项目地址:

https://github.com/lesscomfortable/google-image-dataset

此外,Francisco Ingham还将教程搬到了fast.ai的课程仓库中,是用Jupyter Notebooks写成的。不过刚量子位看时还没有搬完。如果原地址找不到了,不妨来这里看看:

https://github.com/fastai/course-v3/blob/master/nbs/dl1/download_images.ipynb

条条大路通教程,祝你学有所得~

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

活动策划招聘

量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


登录查看更多
0

相关内容

少标签数据学习,54页ppt
专知会员服务
202+阅读 · 2020年5月22日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
164+阅读 · 2020年5月14日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
173+阅读 · 2020年5月6日
谷歌机器学习速成课程中文版pdf
专知会员服务
146+阅读 · 2019年12月4日
【课程】伯克利2019全栈深度学习课程(附下载)
专知会员服务
57+阅读 · 2019年10月29日
Keras作者François Chollet推荐的开源图像搜索引擎项目Sis
专知会员服务
30+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
资源 | 25个深度学习开源数据集
人工智能头条
4+阅读 · 2018年4月22日
一个小例子带你轻松Keras图像分类入门
云栖社区
4+阅读 · 2018年1月24日
教程帖:深度学习模型的部署
论智
8+阅读 · 2018年1月20日
教程帖:用TensorFlow自制Taylor Swift识别器
论智
13+阅读 · 2018年1月17日
别@微信团队了,我用Python给自己戴上了圣诞帽!
Python NLP入门教程
计算机与网络安全
9+阅读 · 2017年11月21日
Python NLP 入门教程
大数据技术
20+阅读 · 2017年10月24日
Arxiv
10+阅读 · 2020年4月5日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
q-Space Novelty Detection with Variational Autoencoders
Arxiv
6+阅读 · 2018年4月23日
Arxiv
4+阅读 · 2018年2月13日
Arxiv
3+阅读 · 2017年11月12日
Arxiv
6+阅读 · 2016年1月15日
VIP会员
相关VIP内容
少标签数据学习,54页ppt
专知会员服务
202+阅读 · 2020年5月22日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
164+阅读 · 2020年5月14日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
173+阅读 · 2020年5月6日
谷歌机器学习速成课程中文版pdf
专知会员服务
146+阅读 · 2019年12月4日
【课程】伯克利2019全栈深度学习课程(附下载)
专知会员服务
57+阅读 · 2019年10月29日
Keras作者François Chollet推荐的开源图像搜索引擎项目Sis
专知会员服务
30+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
资源 | 25个深度学习开源数据集
人工智能头条
4+阅读 · 2018年4月22日
一个小例子带你轻松Keras图像分类入门
云栖社区
4+阅读 · 2018年1月24日
教程帖:深度学习模型的部署
论智
8+阅读 · 2018年1月20日
教程帖:用TensorFlow自制Taylor Swift识别器
论智
13+阅读 · 2018年1月17日
别@微信团队了,我用Python给自己戴上了圣诞帽!
Python NLP入门教程
计算机与网络安全
9+阅读 · 2017年11月21日
Python NLP 入门教程
大数据技术
20+阅读 · 2017年10月24日
相关论文
Arxiv
10+阅读 · 2020年4月5日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
q-Space Novelty Detection with Variational Autoencoders
Arxiv
6+阅读 · 2018年4月23日
Arxiv
4+阅读 · 2018年2月13日
Arxiv
3+阅读 · 2017年11月12日
Arxiv
6+阅读 · 2016年1月15日
Top
微信扫码咨询专知VIP会员