从零开始学数据分析,什么程度可以找工作?

2019 年 1 月 31 日 R语言中文社区


作者:黄宝臣  算法工程师 数据科学/迷影/科学哲学硕士

知乎专栏:

https://zhuanlan.zhihu.com/lambda-and-tau


前言

本文是根据作者在知乎问题“从零开始学数据分析,什么程度可以找工作?”下的回答整理而成,目前该回答已有3428个赞同,如果对你有所启发,别忘了点赞或转发哦~~


1


基本答一下吧,但是不是很准确,只了解大致情况(杭州),带有某种行业自黑。

1
第一阶段(一般岗位叫数据专员)

基本学会excel(VBA最好学会;会做透视表;熟练用筛选、排序、公式),做好PPT。这样很多传统公司的数据专员已经可以做了

2
第二阶段(数据专员~数据分析师)

这一阶段要会SQL,懂业务,加上第一阶段的那些东西。大多数传统公司和互联网小运营、产品团队够用了。

3
第三阶段(数据分析师)

统计学熟练(回归、假设检验、时间序列、简单蒙特卡罗),可视化,PPT和excel一定要溜。这些技术就够了,能应付大多数传统公司业务和互联网业务。

4
第四阶段(分裂)
  • 数据分析师(数据科学家)、BI等:这部分一般是精进统计学,熟悉业务,机器学习会使用(调参+选模型+优化),取数、ETL、可视化啥的都是基本姿态。

  • 可视化工程师:这部分国内比较少,其实偏重前端,会high charts,d3.js, echarts.js。技术发展路线可以独立,不在这四阶段,可能前端转行更好。

  • ETL工程师:顾名思义,做ETL的。

  • 大数据工程师:熟悉大数据技术,hadoop系二代。

  • 数据工程师(一部分和数据挖掘工程师重合):机器学习精通级别(往往是几种,不用担心不是全部,和数据分析师侧重点不同,更需要了解组合模型,理论基础),会组合模型形成数据产品;计算机基本知识(包括linux知识、软件工程等);各类数据库(RDBMS、NoSQL(4大类))

  • 数据挖掘:和上基本相同。

  • 爬虫工程师:顾名思义,最好http协议、tcp/ip协议熟悉。技术发展路线可以独立,不在这四阶段


2


发现回答的有点文不对题额,不过大致是所有从底层数据工作者往上发展的基本路径。往数据发展的基本学习路径可以概括为以下内容:

1
EXCEL、PPT(必须精通)

数据工作者的基本姿态,话说本人技术并不是很好,但是起码会操作;要会大胆秀自己,和业务部门交流需求,展示分析结果。技术上回VBA和数据透视就到顶了。

2
数据库类(必须学)

初级只要会RDBMS就行了,看公司用哪个,用哪个学哪个。没进公司就学MySQL吧。

NoSQL可以在之后和统计学啥的一起学。基本的NoSQL血MongoDB和Redis(缓存,严格意义上不算数据库),然后(选学)可以了解各类NoSQL,基于图的数据库Neo4j,基于Column的数据库BigTable,基于key-value的数据库redis/cassendra,基于collection的数据库MongoDB。

3
统计学(必须学)

如果要学统计学,重要概念是会描述性统计、假设检验、贝叶斯、极大似然法、回归(特别是广义线性回归)、主成分分析。这些个用的比较多。也有学时间序列、bootstrap、非参之类的,这个看自己的意愿。

其他数学知识:线性代数常用(是很多后面的基础),微积分不常用,动力系统、傅里叶分析看自己想进的行业了。

4
机器学习(数据分析师要求会选、用、调)

常用的是几个线性分类器、聚类、回归、随机森林、贝叶斯;不常用的也稍微了解一下;深度学习视情况学习。

5
大数据
(选学,有公司要求的话会用即可,不要求会搭环境)

hadoop基础,包括hdfs、map-reduce、hive之类;后面接触spark和storm再说了。

6
文本类(选学,有公司要求的话会用即可)

这部分不熟,基本要知道次感化、分词、情感分析啥的。

7
工具类
  • 语言:非大数据类R、Python最多(比较geek的也有用julia的,不差钱和某些公司要求的用SAS、Matlab);大数据可能还会用到scala和java。

  • 可视化(选学):tableau、plot.ly、d3.js、echarts.js,R里面的ggplot、ggvis,Python里的bokeh、matplotlib、seaborn都不错

  • 数据库语言:看你自己用啥学啥

  • 其他框架、类库(选学):爬虫(requests、beautifulsoup、scrapy),日志分析(常见elk)


往期推荐:



公众号后台回复关键字即可学习

回复 爬虫            爬虫三大案例实战
回复 Python       1小时破冰入门
回复 数据挖掘     R语言入门及数据挖掘
回复 人工智能     三个月入门人工智能
回复 数据分析师  数据分析师成长之路 
回复 机器学习     机器学习的商业应用
回复 数据科学     数据科学实战
回复 常用算法     常用数据挖掘算法

给我【好看】

你也越好看!

登录查看更多
0

相关内容

数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
198+阅读 · 2020年6月29日
【2020新书】使用高级C# 提升你的编程技能,412页pdf
专知会员服务
60+阅读 · 2020年6月26日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
145+阅读 · 2020年5月19日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
164+阅读 · 2020年5月14日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
102+阅读 · 2020年3月9日
《代码整洁之道》:5大基本要点
专知会员服务
50+阅读 · 2020年3月3日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
216+阅读 · 2020年2月21日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
143+阅读 · 2019年10月10日
对不起,我们公司不招过了25岁还不懂数据分析的人
入行量化,你必须知道的几点
深度学习与NLP
12+阅读 · 2019年3月5日
AI领域人才,做什么工作可以年薪百万?
PaperWeekly
3+阅读 · 2018年5月24日
1年开发经验,25万年薪的1个捷径,98%Python程序员都不知道
机器学习算法与Python学习
7+阅读 · 2018年5月23日
数据分析/数据挖掘 入门级选手建议
R语言中文社区
5+阅读 · 2017年12月20日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
13+阅读 · 2017年9月22日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Learning Implicit Fields for Generative Shape Modeling
Arxiv
10+阅读 · 2018年12月6日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
9+阅读 · 2018年3月28日
Arxiv
3+阅读 · 2018年3月22日
VIP会员
相关VIP内容
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
198+阅读 · 2020年6月29日
【2020新书】使用高级C# 提升你的编程技能,412页pdf
专知会员服务
60+阅读 · 2020年6月26日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
145+阅读 · 2020年5月19日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
164+阅读 · 2020年5月14日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
102+阅读 · 2020年3月9日
《代码整洁之道》:5大基本要点
专知会员服务
50+阅读 · 2020年3月3日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
216+阅读 · 2020年2月21日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
143+阅读 · 2019年10月10日
相关资讯
对不起,我们公司不招过了25岁还不懂数据分析的人
入行量化,你必须知道的几点
深度学习与NLP
12+阅读 · 2019年3月5日
AI领域人才,做什么工作可以年薪百万?
PaperWeekly
3+阅读 · 2018年5月24日
1年开发经验,25万年薪的1个捷径,98%Python程序员都不知道
机器学习算法与Python学习
7+阅读 · 2018年5月23日
数据分析/数据挖掘 入门级选手建议
R语言中文社区
5+阅读 · 2017年12月20日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
13+阅读 · 2017年9月22日
相关论文
Top
微信扫码咨询专知VIP会员