如何入门AI?五大新手项目奉上

2019 年 4 月 22 日 量子位
鱼羊 编译整理
量子位 报道 | 公众号 QbitAI

这年头不学点AI知识,可能都不好意思说自己是新时代的接班人了。

人工智能风头正盛,无论你是支持还是怀疑,AI对这个时代的影响都已逐渐渗透到各行各业当中,哪怕身处非互联网行业,也能感受到AI的滚滚浪潮。

学习已成刚需,不过对于初学者而言,要正正经经上手机器学习,如何入门就有点让人头大了。

好在计算机领域向来有和谐互助之风,德国程序猿Michiel Mulders近日就精心炮制了一份机器学习入门新手指南。一起来看看AI大法该当如何修炼吧。

入门指南

欲练此功,首先要知道,纸上谈兵是本门大忌。

吴恩达就曾经说到,想要入门机器学习,应该进行一些项目实践。

所以入门第一步,从选择一个数据集开始:

  • 找到一个大小合宜,并且相对容易分析的数据集。UCL ML RepositoryKaggle盛产此物。

  • 对数据集进行试验。挑几个顶级的机器学习算法跑一跑这些数据,看看数据的表现,了解一下每种算法的性能。

  • 挑选表现最佳的算法,调教它。

这就完事了?no,no,no,本份指南还贴心奉上五佳项目,任君挑选。
↓↓↓↓↓↓

TOP 5

项目:监督式机器学习
数据集:鸢尾花数据集

鸢尾花数据集堪称机器学习领域的“Hello World”。对数据一无所知?那么选择它就对了。

这个数据集的好处是足够小,仅仅只有150行,并且它只有四个属性:花瓣长度,花瓣宽度,萼片长度和萼片宽度。

通过判别四个已知属性,四种不同类型的鸢尾花在数据集中被标记出来,所以你可以拿它来学学监督式机器学习。

这里建议使用多元分类训练方法。

另外,记得给自己设立一个小目标:根据花瓣和萼片的大小对三种花进行分类。

相关链接:

UCI机器学习仓库(UCI ML Repository):
https://archive.ics.uci.edu/ml/index.php

Kaggle数据集:
https://www.kaggle.com/datasets

项目:交易预测
平台:GNY

很多流行的机器学习服务价格高昂,对于新手十分不友好。不如选择GNY团队的机器学习平台,这个平台挺好挺强大,最重要的是提供免费的下载安装。

GNY团队还发布了一个通过神经网络预测零售交易的demo,正式版本将在今夏登陆,还将提供定制服务。

对于机器学习新人小白来说,这个demo不失为一个有趣的入门项目。你可以到MLWave上找一个数据集,根据消费历史来预测哪些人会成为回头客。

相关链接:

GNY机器学习平台:
https://www.gny.io/

MLWave回头客数据集:
https://mlwave.com/predicting-repeat-buyers-vowpal-wabbit/

项目:情绪分析
数据集:twitter

情绪分析是机器学习里非常有趣的一种应用,检索数据也很容易获得,Reddit、Facebook和Linkedln都提供了易于使用的API。不过首选还是Twitter的数据,Twitter平台上的数据格式一致,预处理也要容易得多。

首先!pip install Python -twitter,然后就开动吧,不过过度使用可是会被列入黑名单的哟。

再列几个具体的方向以供参考:

  • 分析对新发布电影的情绪,并将其与IMDB和其他评级网站上的评论进行比较。

  • 分析围绕特定选举或任何其他政治话题的情绪。

  • 根据推文的情绪预测前50种加密货币未来的价格。

相关链接:

Twitter数据集:
https://github.com/shaypal5/awesome-twitter-data

项目:推荐系统
数据集:Movielens

想必没有人会对推荐系统感到陌生。

推荐系统是机器学习技术在商业中最成功和最广泛的应用之一,几乎渗入到了日常生活的每一个角落。网易云音乐的个性推荐,神奇的抖音算法都属于这一范畴。

关于推荐系统,可以使用两种算法:

  • 基于内容推荐算法:寻找内容的相似性。

  • 协作过滤算法:寻找交互中的相似性。即对一大群人进行分析,确认品位相近的人。

Movielens是最受欢迎的电影评级数据集之一,对初学者来说是试验推荐算法的理想数据集。

于是你可以再立一个小目标了:根据用户评分来预测他们会喜欢哪部电影。

项目:股票价格预测
数据集:Quandl

对于股民来说,如果能预测股票价格,那岂不是亦可赛艇?
但不管你是不是股民,都可以试试用机器学习来实现股票价格预测。

我们先来列列关键字:

  • 波动率指数

  • 历史价格

  • 全球宏观经济指标

  • 基本面分析

  • 指标技术分析

股票市场具有更短的反馈周期,也就是预测的结果可以更快被验证,十分适合新手学习。

选择一个简单的机器学习示例,到Quandl.com上下载股票市场数据集,就可以动手预测未来6个月的股票价格变化了。友情提醒:AI只负责产生结果,不对结果负责

相关链接:

Quandl数据集:
https://www.quandl.com/

新手向TOP 5项目介绍完毕。看到这里,是不是已经摩拳擦掌,感觉自己可以分分钟入门AI啦?快拎上数据集,AI江湖等你亮剑~

订阅AI内参,获取AI行业资讯

加入社群

量子位AI社群开始招募啦,量子位社群分:AI讨论群、AI+行业群、AI技术群;


欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“微信群”,获取入群方式。(技术群与AI+行业群需经过审核,审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !



登录查看更多
0

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
107+阅读 · 2020年6月27日
【新书】傻瓜式入门深度学习,371页pdf
专知会员服务
183+阅读 · 2019年12月28日
谷歌机器学习速成课程中文版pdf
专知会员服务
142+阅读 · 2019年12月4日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
94+阅读 · 2019年12月4日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
160+阅读 · 2019年10月28日
最适合机器学习新手的10种算法
论智
9+阅读 · 2018年1月23日
Python & 机器学习之项目实践 | 赠书
人工智能头条
12+阅读 · 2017年12月26日
【AI 工程师】掌握这10个项目,秒杀90%面试者!
人工智能头条
13+阅读 · 2017年12月14日
TensorFlow实现神经网络入门篇
AI研习社
11+阅读 · 2017年12月11日
干货 | 从零开始入门机器学习算法实践
雷锋网
9+阅读 · 2017年11月30日
新手|TensorFlow实现神经网络入门篇!
全球人工智能
9+阅读 · 2017年11月17日
资源 | GitHub上的五大开源机器学习项目
机器之心
9+阅读 · 2017年11月9日
Arxiv
12+阅读 · 2019年2月26日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
Arxiv
4+阅读 · 2018年3月30日
Arxiv
5+阅读 · 2016年1月15日
VIP会员
相关资讯
最适合机器学习新手的10种算法
论智
9+阅读 · 2018年1月23日
Python & 机器学习之项目实践 | 赠书
人工智能头条
12+阅读 · 2017年12月26日
【AI 工程师】掌握这10个项目,秒杀90%面试者!
人工智能头条
13+阅读 · 2017年12月14日
TensorFlow实现神经网络入门篇
AI研习社
11+阅读 · 2017年12月11日
干货 | 从零开始入门机器学习算法实践
雷锋网
9+阅读 · 2017年11月30日
新手|TensorFlow实现神经网络入门篇!
全球人工智能
9+阅读 · 2017年11月17日
资源 | GitHub上的五大开源机器学习项目
机器之心
9+阅读 · 2017年11月9日
Top
微信扫码咨询专知VIP会员