数据科学中的数学——必备知识点+常用知识点示例+推荐学习资源

2018 年 8 月 23 日 数据分析
数据科学中的数学——必备知识点+常用知识点示例+推荐学习资源

   

   作为一名数据科学家,我们至少需要掌握哪些数学知识?本文为您一一列举,并解读它们


1函数、变量、方程和图表


1.1 
必备的知识点      

    建议从最基本的知识点(如线性方程组、二项式定理)开始入手,重点掌握:

  • 对数,指数,多项式函数,有理数。

  • 基本几何定理,三角恒等式。

  • 实数和复数的基本属性。

  • 序列,加总,不等式。

  • 绘图,笛卡尔系、极坐标系,圆锥曲线。

1.2
常用知识点的举例

   如果您想要在排序后了解搜索在百万级别数据库上的运行速度,您将会遇到二进制搜索的概念。要了解它的动态变化,需要了解对数和递推方程。或者,如果您想分析时间序列,您可能会遇到周期函数和指数衰减等概念。


1.3
学习资源的推荐  
  • Data Science Math SkillsCoursera

  • Introduction to AlgebraedX

  • Khan Academy Algebra



2 统计学                                 



2.1
必备知识点              

     在数据科学家成长的过程中,不能过度强调掌握统计和概率的重要性。很多人甚至认为经典的机器学习(非神经网络)只是统计学习。这个主题太过于广泛了。因此,画清楚重点是很有必要的。


  • 数据摘要和描述性统计,集中趋势,方差,协方差,相关性,

  • 概率的基本概念,期望,概率演算,贝叶斯定理,条件概率,

  • 概率分布函数 :均匀分布,正态分布,二项式分布,卡方分布,学生t-分布,中心极限定理,

  • 采样,测量,误差,随机数生成,

  • 假设检验,A / B检验,置信区间,p值,

  • 方差分析,t检验

  • 线性回归,正则化

       

2.2
常用知识点的举例   

     在同行交流中,如果你能掌握以上所有的概念,你会很快给对方留下深刻的印象。作为数据科学家,你几乎处处都要用到这些概念。

2.3
学习资源的推荐     
  • Statistics with R specialization —Coursera, Duke University

  • Statistics and Probability in Data Science using Python — edX, Univ of California San Diego

  • Business Statistics and Analysis Specialization — Coursera, Rice University



3   线性代数             


3.1
必备知识点                          

   什么是常用的?矩阵和矩阵代数。这是学习数学的一个重要分支,用于理解大多数机器学习算法如何在数据流上工作以创建洞察力。以下是要学习的基本内容

  • 可矩阵和向量的基本属性 - 标量乘法,线性变换,转置,共轭,秩,行列式,

  • 矩阵乘法规则和各种算法,矩阵逆,

  • 特殊矩阵 - 方阵,单位矩阵,三角矩阵,稀疏和密集矩阵的思想,单位向量,对称矩阵,Hermitian,skew-Hermitian和酉矩阵,

  • 矩阵分解概念/ LU分解,高斯/高斯 - 乔丹消除,求解Ax = b方程的线性系统,

  • 矢量空间,基,跨度,正交性,线性最小二乘,

  • 特征值,特征向量和对角化,奇异值分解(SVD)

      

3.2 
常用知识点的举例     

     如果您使用了降维技术主成分分析(PCA),那么您可能已经使用奇异值分解来实现数据降维。通常,绝大多数神经网络算法都使用线性代数技术来表示和处理网络结构和学习操作。

3.3
学习资源的推荐        
  • Linear Algebra: Foundation to Frontier— edX, UT Austin

  • Mathematics for Machine Learning: Linear Algebra — Coursera, Imperial College, London




4 微积分              


4.1
必备的知识点        

    无论你喜欢它还是在大学期间都讨厌它,事实上微积分的概念和应用在数据科学或机器学习领域的许多地方出现。它隐藏在线性回归中普通最小二乘问题的简单分析解决方案背后,或者嵌入到神经网络学习新模式的每个反向传播中。以下是要学习的方面。

  • 单变量,极限,连续性和可微性

  • 中值定理,不确定形式和L'Hospital规则,

  • 极小值,

  • 泰勒序列,无限级数求和/积分概念

  • 积分计算的基本和中值定理,对有限和不正确积分的评价,

  • Beta和Gamma功能,

  • 多变量的函数,极限,连续性,偏导数,

  • 普通和偏微分方程的基础知识

4.2
常用知识点的举例   

   想知道如何实现逻辑回归算法?它很有可能使用一种称为“梯度下降”的方法来找到最小损失函数。要了解这是如何实现的,您需要使用来自微积分的概念 - 梯度,导数,极限和链式求导法则。

4.3
学习资源的推荐     
  • Pre-University Calculus — edX, TU Delft

  • Khan Academy Calculus all content

  • Mathematics for Machine Learning: Multivariable Calculus — Coursera, Imperial College, London




5   离散数学               


5.1
必备的知识点       

    通常,离散数学是“数据科学的数学”中较少讨论的主题,但事实是所有现代数据科学都是在计算系统的帮助下完成的,离散数学是这类系统的核心。这里是要学习的一些重点。

  • 集,子集,幂集

  • 计数功能,组合,可数性

  • 基本证明方法 - 归纳法、反证法

  • 归纳,演绎和命题逻辑的基础知识

  • 基本数据结构 - 堆栈,队列,图形,数组,哈希表,树

  • 图表属性 - 连接组件,度,最大流量/最小切割概念,图形着色

  • 递归关系和方程

  • 函数的增长和On)符号概念

5.2
常用知识点的举例

   在社交网络分析中,您需要知道图的属性和快速算法以搜索和遍历网络。在任何算法选择中,您都需要通过使用 O(n)(Big-Oh)表示法来了解时间和空间复杂度,即运行时间和空间要求如何随输入数据大小而增长。


5.3
学习资源的推荐 
  • Introduction to Discrete Mathematics for Computer Science Specialization — Cousera, Univ. of California San Diego

  • Introduction to Mathematical Thinking — Coursera, Stanford

  • Master Discrete Mathematics: Sets, Math Logic, and More — Udemy



6 优化论与运筹学     


6.1
必备的知识点     

     此部分应用数学中的传统话语没什么不同,因为它们在专业领域 - 理论计算机科学,控制理论或运筹学 - 中最为相关和最广泛使用。然而,在机器学习的实践中,对这些强大技术的基本理解可以非常有成效。实际上,每种机器学习算法/技术都旨在最小化受各种约束影响的某种估计误差。那就是优化问题。要学习的内容:

  • 优化的基础 - 如何制定问题

  • 最大值,最小值,凸函数,全局解

  • 线性规划,单纯形算法

  • 整数编程

  • 约束编程,背包问题


6.2
常用知识点的举例   

    使用最小平方损失函数的简单线性回归问题通常具有精确的解析解。但逻辑回归问题却没有。要理解原因,您需要了解优化中凸性的概念。这一调查也将阐明为什么我们必须对大多数机器学习问题中的“近似”解决方案保持满意。


6.3
学习资源的推荐  
  • Optimization Methods in Business Analytics — edX, MIT

  • Discrete Optimization — Coursera, University of Melbourne

  • Deterministic Optimization — edX, Georgia Tech

备注,本文由李昊璟、朝乐门负责翻译、编辑、排版和校对。原文提名为《Essential Math for Data Science — ‘Why’ and ‘How》,作者 为Tirthajyoti Sarkar,URL为https://towardsdatascience.com/essential-math-for-data-science-why-and-how-e88271367fbd。转载请注明出处。

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。

关联阅读

原创系列文章:

1:从0开始搭建自己的数据运营指标体系(概括篇)

2 :从0开始搭建自己的数据运营指标体系(定位篇)

3 :从0开始搭建自己的数据运营体系(业务理解篇)

4 :数据指标的构建流程与逻辑

5 :系列 :从数据指标到数据运营指标体系

6:   实战 :为自己的公号搭建一个数据运营指标体系

7:  从0开始搭建自己的数据运营指标体系(运营活动分析)

数据运营 关联文章阅读:  

运营入门,从0到1搭建数据分析知识体系    

推荐 :数据分析师与运营协作的9个好习惯

干货 :手把手教你搭建数据化用户运营体系

推荐 :最用心的运营数据指标解读

干货 : 如何构建数据运营指标体系

从零开始,构建数据化运营体系

干货 :解读产品、运营和数据三个基友关系

干货 :从0到1搭建数据运营体系

数据分析、数据产品 关联文章阅读:

干货 :数据分析团队的搭建和思考

关于用户画像那些事,看这一文章就够了

数据分析师必需具备的10种分析思维。

如何构建大数据层级体系,看这一文章就够了

干货 : 聚焦于用户行为分析的数据产品

如何构建大数据层级体系,看这一文章就够了

80%的运营注定了打杂?因为你没有搭建出一套有效的用户运营体系

从底层到应用,那些数据人的必备技能

读懂用户运营体系:用户分层和分群

做运营必须掌握的数据分析思维,你还敢说不会做数据分析

合作请加qq:365242293  


更多相关知识请回复:“ 月光宝盒 ”;

数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

登录查看更多
9

相关内容

数据科学(英語:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

这本书的目标是介绍自动微分的基本算法,以及流行的数学和统计函数的自动微分规则的百科全书式的集合。

自动微分是一种通用的技术,用于将函数的计算值转换为可计算导数的值。导数计算只给用于计算函数值的每个操作增加一个常数的开销,因此可微函数与原始函数具有相同的复杂度阶数。在描述了自动微分的标准形式之后,这本书提供了一个百科全书收集的正切和伴随规则的前向模式和后向模式自动微分,涵盖了最广泛使用的标量,向量,矩阵和概率函数。附录包含正向模式、反向模式和混合模式自动区分的工作示例代码。

成为VIP会员查看完整内容
0
58

本书概述了现代数据科学重要的数学和数值基础。特别是,它涵盖了信号和图像处理(傅立叶、小波及其在去噪和压缩方面的应用)、成像科学(反问题、稀疏性、压缩感知)和机器学习(线性回归、逻辑分类、深度学习)的基础知识。重点是对方法学工具(特别是线性算子、非线性逼近、凸优化、最优传输)的数学上合理的阐述,以及如何将它们映射到高效的计算算法。

https://mathematical-tours.github.io/book/

它应该作为数据科学的数字导览的数学伴侣,它展示了Matlab/Python/Julia/R对这里所涵盖的所有概念的详细实现。

成为VIP会员查看完整内容
0
237
小贴士
相关资讯
那些值得推荐和收藏的线性代数学习资源
学好机器学习,这里有你想要的一切
伯乐在线
3+阅读 · 2018年6月13日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
8+阅读 · 2018年5月14日
入门 | 一文介绍机器学习中基本的数学符号
机器之心
22+阅读 · 2018年4月9日
最适合机器学习新手的10种算法
论智
5+阅读 · 2018年1月23日
学习人工智能需要哪些必备的数学基础?
如何用 3 个月零基础入门机器学习?
AI研习社
5+阅读 · 2017年9月27日
相关VIP内容
专知会员服务
58+阅读 · 2020年6月6日
专知会员服务
237+阅读 · 2020年3月23日
专知会员服务
118+阅读 · 2020年1月16日
机器学习入门的经验与建议
专知会员服务
49+阅读 · 2019年10月10日
学习自然语言处理路线图
专知会员服务
70+阅读 · 2019年9月24日
相关论文
Prathusha K Sarma,Yingyu Liang,William A Sethares
4+阅读 · 2019年8月16日
Rama Kumar Pasumarthi,Sebastian Bruch,Xuanhui Wang,Cheng Li,Michael Bendersky,Marc Najork,Jan Pfeifer,Nadav Golbandi,Rohan Anil,Stephan Wolf
4+阅读 · 2019年5月17日
Multi-class Classification without Multi-class Labels
Yen-Chang Hsu,Zhaoyang Lv,Joel Schlosser,Phillip Odom,Zsolt Kira
4+阅读 · 2019年1月2日
Piotr Szymański,Tomasz Kajdanowicz,Nitesh Chawla
3+阅读 · 2019年1月1日
A General and Adaptive Robust Loss Function
Jonathan T. Barron
7+阅读 · 2018年11月5日
Parsimonious Bayesian deep networks
Mingyuan Zhou
3+阅读 · 2018年10月17日
The Matrix Calculus You Need For Deep Learning
Terence Parr,Jeremy Howard
6+阅读 · 2018年7月2日
Mohammadhosein Hasanbeig,Alessandro Abate,Daniel Kroening
5+阅读 · 2018年4月22日
Ruoyu Li,Sheng Wang,Feiyun Zhu,Junzhou Huang
5+阅读 · 2018年1月10日
Fahim Irfan Alam,Jun Zhou,Alan Wee-Chung Liew,Xiuping Jia,Jocelyn Chanussot,Yongsheng Gao
10+阅读 · 2017年12月27日
Top
微信扫码咨询专知VIP会员