不懂数学,照样做数据科学家

2019 年 1 月 28 日 新智元



  新智元报道  

来源:analyticsindiamag

编辑:大明

【新智元导读】AI和机器学习的火热让数据科学家成为近几年热门职业之一。但对于试图从事这一职业的新人来说,数学可能最大的拦路虎之一。不过本文作者认为,当数据科学家并不一定需要坚实的数学基础,并给出了9类无需数学基础的数据科学任务。

在当今世界上,数据科学和机器学习已成为最令人向往的职业方向之一,从大学生到职业生涯中期的专业人士,很多人都希望进入数据科学领域。但是,在追求数据科学或机器学习领域时想到的第一个先决条件是,要具备深入研究复杂数学问题的能力,才能走进数据科学的大门


但是那些数学基础薄弱,不具备扎实数学背景的人怎么办?他们就没有希望进入数据科学领域了吗?

 

当然不是。本文将提供踏入数据科学和机器学习世界之前,是否强制要求数学背景知识的真实情况。


为什么说数学知识是数据科学家的先决条件?


与大学其他专业相比,数据科学更多地是关于如何快速准确地学习。通过严格的数学运算,快速准确地掌握技术,并且通常可以比大多数人更容易地学习。

 

数据科学家基本上都是统计学家,大多数人拥有研究生水平的数学和统计学知识。这是从事实际项目所必需的知识,对于正确使用算法和假设检验至关重要。

 

掌握逻辑回归、决策树、置信区间等标准数学工具也很重要。大多数企业都会使用这些标准工具。因此,招聘人员也倾向于寻找具备扎实数学背景的求职者,这主要是出于历史原因。

 

坚持使用标准的数学训练和标准工具,对有兴趣成为硬核数据科学家的人是非常有用的。

 

数据科学家需要掌握哪些知识呢?

 

一位优秀的数据科学家或工程师必须具备丰富的数据库知识和工程实践知识。包括处理和记录错误、监控系统,构建人为错误容错渠道,了解扩展项目所需的条件、处理持续整合问题、掌握数据库管理知识,维护数据清理以及确保确定性处理流程等。


凡事有例外,高中数学水平的人也有机会

 

实际上,在机器学习的所有方面的技术中,数据科学背后的统计引擎并不涉及高中以后的任何数学或统计理论。

 

如果具备强大的数据和编程背景,任何人都可以非常快速地学习数据科学。

 

不过,由硬核数学导向的数据科学家开发的一些技术并不使用数学或统计学,这些技术同样有效,其中一些技术已经被证明不输于使用数学的同类技术,而且性能通常更加强大。此外,这些技术更易于理解,并且可解释性更强。


数据科学家的实际工作有多少和数学有关?


打破神话,揭示现实。

 

从入门级数据科学家到中级数据科学家,一般花在数学上的时间不到5%,机器学习也是如此,尤其是建立模型时,很少有时间做任何数学上的工作。对于机器学习,需要学习的真正的必要技能是数据分析,以便建立能够进行准确预测的模型。初学者其实不需过多掌握微积分和线性代数。

 

只有参与学术上的机器学习研究或者少数先进的数据科学家团队时,数学的作用才显得特别重要。高水平的业内人士也经常使用高等数学。一些人正在拓展机器学习研究人员的研究边界。

 

像谷歌和Facebook这样的公司中,人们只会在工作中经常使用微积分、线性代数和更高级的数学工具。

 

最重要的是,在产业界中,数据科学家只是没有将太多时间花在数学上,但花了大量时间来获取数据、清理数据、探索数据。实际上,80%的人所做的是数据整理和数据的可视化。


9类无需数学技术的数据科学任务

 

1、使用基本的Excel进行高级机器学习:此方法是一种轻量级的技术实现,包括非常简单易懂的基本Excel实现。目前可用于Python、Perl,Julia和R。未来预计还将支持SQL实现。

 

2、使用HDT进行自动化的机器学习:此方法融合了名为“决策树”和“回归”的两种传统技术。但是这种实现不涉及任何节点分割或任何传统的回归模型,回归部分是与数学无关的Jack-knife回归。早期版本使用逻辑回归,但由于数据转换过程比较简单,使用的参数较少,导致逻辑回归被Jack-knife回归所取代。

 

3、无模型置信区间:需要对随机变量和概率分布有基本的了解才能知道置信区间的概念。这类置信区间方法基于百分位数,非常易于理解,无需数学知识且可靠性高,可用于预测分析。

 

4、假设检验:这是学生在统计课程中的难题之一。这里已被置信区间的简单变体所取代,便于直观理解。

 

5、使用Excel的Jack-knife回归:这些回归技术非常简单高效,可以在Excel或SQL中轻松实现。

 

6、Jack-knife回归:理论 – 无须统计理论的回归,甚至不涉及线性代数。不过带有置信区间。在该方法中,即使使用少量元参数,与经典回归相比,也能实现最低限度的精度损失。该方法在存在异常值、高度相关的特征或其他违反假设的情况下性能良好,这些假设条件在使用传统回归时必须通过一个数据集满足。

 

7、索引,编目和NLP:无需数学知识的监督聚类方法。

 

8、快速组合特征选择:这种方法通常需要理解随机变量的概念。

 

9、方差,聚类和密度估计:这些方法中也不大涉及数学。


要成为高效的数据科学家,还是要懂点数学的


其实,这里的关键点是,对于初出茅庐的数据科学家和机器学习从业者来说,数据专业知识的重要性要优于数学专业知识,因此,如果你的目标是获得一份工作,进入数据科学领域,那么最重要的任务是必须掌握数据分析,而不是掌握微积分。数据科学家要做的不是做证明题或研究数学问题,能够分析数据才是最重要的。

 

初学者需要尽快掌握如何收集数据、探索和准备数据。全面掌握数据可视化和数据处理(包括聚合)是关键环节,这样才可以同时使用它们来执行探索性数据分析任务。

 

尽管这些无需数学知识的工具和方法,确实凸显了在不具备坚实数学基础的情况下从事数据科学的可能性,但并一定能够满足行业的期望,因为能否获得数据科学家的职位,完全取决于你从事的工作内容,以及你心仪的公司究竟从事什么业务。

 

在不具备数学背景知识的情况下,确实有可能成为一名数据科学家。但按以往经验来看,如果没有一定程度的数学素养,从长期而言,很难成为一个高效的数据科学家,而高效这一点无疑是更为重要的。


更多阅读:

【加入社群】


新智元AI技术+产业社群招募中,欢迎对AI技术+产业落地感兴趣的同学,加小助手微信号:aiera2015_2   入群;通过审核后我们将邀请进群,加入社群后务必修改群备注(姓名 - 公司 - 职位;专业群审核较严,敬请谅解)。

登录查看更多
1

相关内容

数据科学(英語:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。
专知会员服务
165+阅读 · 2020年6月4日
【干货书】用于概率、统计和机器学习的Python,288页pdf
专知会员服务
280+阅读 · 2020年6月3日
打怪升级!2020机器学习工程师技术路线图
专知会员服务
96+阅读 · 2020年6月3日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
139+阅读 · 2020年5月19日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
106+阅读 · 2020年5月9日
从0到1 | 0基础/转行 如何用3个月学会机器学习|数据科学
数据挖掘入门与实战
5+阅读 · 2017年12月4日
数学不好能搞人工智能吗?
算法与数学之美
3+阅读 · 2017年11月27日
搞人工智能必备“数学库”
机器学习算法与Python学习
5+阅读 · 2017年11月20日
从0到1 | 0基础/转行如何用3个月搞定机器学习
算法与数学之美
4+阅读 · 2017年11月20日
数学不好,如何转行人工智能?
算法与数学之美
4+阅读 · 2017年11月17日
Kaggle入门手册
Datartisan数据工匠
14+阅读 · 2017年11月9日
机器学习必备手册
机器学习研究会
18+阅读 · 2017年10月24日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
4+阅读 · 2018年4月29日
Arxiv
10+阅读 · 2018年3月23日
VIP会员
相关VIP内容
专知会员服务
165+阅读 · 2020年6月4日
【干货书】用于概率、统计和机器学习的Python,288页pdf
专知会员服务
280+阅读 · 2020年6月3日
打怪升级!2020机器学习工程师技术路线图
专知会员服务
96+阅读 · 2020年6月3日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
139+阅读 · 2020年5月19日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
106+阅读 · 2020年5月9日
相关资讯
从0到1 | 0基础/转行 如何用3个月学会机器学习|数据科学
数据挖掘入门与实战
5+阅读 · 2017年12月4日
数学不好能搞人工智能吗?
算法与数学之美
3+阅读 · 2017年11月27日
搞人工智能必备“数学库”
机器学习算法与Python学习
5+阅读 · 2017年11月20日
从0到1 | 0基础/转行如何用3个月搞定机器学习
算法与数学之美
4+阅读 · 2017年11月20日
数学不好,如何转行人工智能?
算法与数学之美
4+阅读 · 2017年11月17日
Kaggle入门手册
Datartisan数据工匠
14+阅读 · 2017年11月9日
机器学习必备手册
机器学习研究会
18+阅读 · 2017年10月24日
Top
微信扫码咨询专知VIP会员