微软研究院出品《数据科学基础》,放眼未来40年(附PDF下载)

2019 年 5 月 21 日 THU数据派
微软研究院出品《数据科学基础》,放眼未来40年(附PDF下载)

来源:新智元

本文1000字,建议阅读5分钟

本文为你介绍《数据科学基础》主要内容并分享PDF资源。


计算机科学作为一门科学始于20世纪60年代。计算机科学的重点是编程语言、编译器、操作系统以及为这些领域提供支撑的数学理论。理论计算机科学课程涵盖有限自动机、正则表达式、无语境式语言和可计算性等。


自上世纪70年代开始,算法研究逐渐成为理论计算机科学的重要组成部分。 算法研究的重要目的是提升计算机的有用性。到了今天,计算机科学的发展正在发生根本性的变化,研究人员注意力和研究重点更多地放在了应用上。

 

产生这一变化的原因有很多,其中计算和通信技术的融合在这个过程中发挥了重要作用。同时,在自然科学、商业和其他领域,收集和存储数据的能力不断上升,这对数据的理解以及如何在现代环境中进行数据处理提出了更高的要求。网络和社交网络作在日常生活中核心地位的提升,也为理论计算机科学理论的发展提供了新的机遇和挑战。

 

虽然计算机科学的传统领域仍然非常重要,但未来将有越来越多的研究人员将使用计算机来理解和提取应用程序中出现的大量数据中的可用信息。考虑到这一点,我们写了这本书,希望本书可以涵盖我们期望在未来40年内有用的理论,本书与过去同类数据的一个主要变化是之一对概率、统计和数值方法更加重视。


目录及各章内容简介



本书更早的版本已用于本科和研究生课程教学使用。本科课程所需的背景材料在附录部分给出。包括信息处理,搜索和机器学习等各领域中的现代数据通常以具有大量组件的向量方式表示。向量表示不仅仅是用于存储记录的许多字段的簿记设备。实际上,向量的两个显着方面:几何(长度,点积,正交等)和线性代数(相关性,秩,奇异值等)结果是相关的。

 

第2章和第3章分别奠定了几何和线性代数的基础。更具体地说,就是当涉及到高维度时,我们对二维或三维空间的直觉可能出乎意料地出现偏差。

 

第2章阐述了理解这类偏差所需的基础知识。本章以及整本书的重点是多关注知识和思想以及数学基础,而不是特定的应用。

 

第3章重点介绍奇异值分解(SVD),这是处理矩阵数据的核心工具。本章给出了SVD的数学和算法的原理描述。奇异值分解的应用包括主成分分析,这是目前已经广泛使用的技术,以及对概率密度、离散优化等与统计学结合后的现代应用,对这类应用的描述相对详细。使用确定性方法探索web或大型系统的配置空间之类的大规模结构的成本可能会非常高。随机游走(又称马尔可夫链)经常是效率更高的处理方式。这种游走的固定分布对网络搜索物理系统模拟等应用非常重要。

 

随机游走的基础数学理论以及与电气网络的连接是第4章的核心内容。计算机科学在过去二十年中的一个巨大进步是,一些过去只能用在特定领域的方法,现在已经可以成功解决来自多个不同领域的问题。机器学习就是一个突出的例子。

 

第5章描述了机器学习的基础,示例算法都可以用于优化给定的训练样例,并能够理解并预见到这种算法优化能够在新的未知数据上获得良好性能。这其中涉及一些重要的量度,如Vapnik-Chervonenkis维度,以及一些重要的算法,如感知器算法,随机梯度下降,强化学习和深度学习,以及重要的概念,如正则化和过拟合。算法领域传统上假设问题的输入数据会呈现在随机存取存储器中,算法可以重复访问。而对于涉及大量数据的问题,这种方式是不可行的。在这种情况下,采样起着至关重要的作用,而且必须进行动态采样。

 

第6章主要探讨如何有效地绘制高质量样本,以及如何使用这些样本估计统计和线性代数变量。尽管第5章内容侧重监督学习,但是从标记训练数据中学习,无监督学习或从未标记数据中学习的问题同样重要。无监督学习的中心问题之一是聚类,我们将在第7章中讨论。。

 

在讨论了一些基本聚类方法(如k-means算法)之后,第7章重点介绍理解这些算法的现代发展过程,以及用于分析不同类型聚类问题的新算法和通用框架。对大型架构(如网络和社交网络)的理解的核心,是构建出能够获取这些架构的基本属性的有效模型。最简单的模型是由Erd¨os和Renyi制定的随机图,我们在第8章进行详细介绍。

 

第9章重点介绍从数据中寻求合理性的一些线性代数问题,尤其是主题建模和非负矩阵分解。除了讨论众所周知的模型之外,本章还描述了一些关于模型和算法的当前研究动态。

 

第10章讨论了排名和社会选择以及压缩感知等关于稀疏表示问题。此外还简要讨论了线性规划和半定规划。

 

微波是用于在一系列应用中表示信号的重要方法,本书第11章讨论微波一些基本数学特性。附录中给出了一系列背景材料。

 

本书pdf版本已开放下载,地址:

https://www.cs.cornell.edu/jeh/book.pdf


参考链接:

https://twitter.com/MSFTResearch/status/1128511321295736833


编辑:文婧

校对:林亦霖


登录查看更多
16

相关内容

理论计算机科学( Theoretical Computer Science ),计算机科学( Computer Science )两大分支之一。

本书介绍了数据科学的数学和算法基础,包括机器学习、高维几何和大型网络的分析。主题包括高维数据的反直觉性质、重要的线性代数技术,如奇异值分解、随机游动和马尔科夫链理论、机器学习的基本原理和重要算法、聚类算法和分析、大型网络的概率模型、表示学习,包括主题建模和非负矩阵分解、小波和压缩感知。本文提出了一种正概率技术,包括大数定律、尾部不等式、随机投影分析、机器学习中的泛化保证以及分析大随机图相变的矩量法。此外,还讨论了重要的结构和复杂性度量,如矩阵范数和vc维。本书适用于设计和分析数据算法的本科和研究生课程。

成为VIP会员查看完整内容
0
65

本书概述了现代数据科学重要的数学和数值基础。特别是,它涵盖了信号和图像处理(傅立叶、小波及其在去噪和压缩方面的应用)、成像科学(反问题、稀疏性、压缩感知)和机器学习(线性回归、逻辑分类、深度学习)的基础知识。重点是对方法学工具(特别是线性算子、非线性逼近、凸优化、最优传输)的数学上合理的阐述,以及如何将它们映射到高效的计算算法。

https://mathematical-tours.github.io/book/

它应该作为数据科学的数字导览的数学伴侣,它展示了Matlab/Python/Julia/R对这里所涵盖的所有概念的详细实现。

成为VIP会员查看完整内容
0
192

** 简介:**

计算机科学作为一门学科开始于1960年代。重点放在支持这些领域的编程语言,编译器,操作系统和数学理论上。理论计算机科学课程涵盖了有限自动机,正则表达式,无上下文语言和可计算性。在1970年代,算法研究被添加为理论的重要组成部分。重点是使计算机变得有用。如今,正在发生根本性的变化,重点更多地放在大量应用程序上。发生此更改的原因很多。计算和通信的融合发挥了重要作用。在自然科学,商业和其他领域中观察,收集和存储数据的能力增强,要求改变我们对数据的理解以及如何在现代环境中处理数据。网络和社交网络作为日常生活的中心方面的出现给理论带来了机遇和挑战。 尽管计算机科学的传统领域仍然非常重要,但未来越来越多的研究者将使用计算机来理解和从应用程序中产生的大量数据中提取可用信息,而不仅仅是如何使计算机在明确定义的问题上有用。考虑到这一点,我们已经写了这本书,以涵盖我们期望在未来40年中有用的理论,就像对自动机理论,算法和相关主题的理解使学生在过去40年中获得了优势一样。主要变化之一是对概率,统计和数值方法的重视程度有所提高。 本书的早期草稿已用于本科和研究生课程。附录中提供了本科课程所需的背景材料。因此,附录存在作业问题。诸如信息处理,搜索和机器学习之类的不同领域中的现代数据通常被有利地表示为具有大量组件的向量。向量表示不仅是用于保存记录的许多字段的簿记设备。确实,向量的两个显着方面:几何(长度,点积,正交性等)和线性代数(独立性,秩,奇异值等)被证明是相关且有用的。

部分目录:

成为VIP会员查看完整内容
0
73

大数据正在成为智能交通系统(ITS)的一个研究热点,这可以在世界各地的许多项目中看到。智能交通系统会产生大量的数据,将对智能交通系统的设计和应用产生深远的影响,从而使智能交通系统更安全、更高效、更有利可图。在ITS中研究大数据分析是一个蓬勃发展的领域。本文首先回顾了大数据和智能交通系统的发展历史和特点,接着讨论了ITS系统中进行大数据分析的框架,总结了ITS系统中的数据源和采集方法、数据分析方法和平台以及大数据分析应用领域。同时介绍了大数据分析在智能交通系统中的几个应用实例,包括道路交通事故分析、道路交通流量预测、公共交通服务规划、个人出行路线规划、轨道交通管理与控制、资产维护等。最后,本文讨论了在ITS中应用大数据分析的一些开放性挑战。

成为VIP会员查看完整内容
0
48

随着大数据、深度学习在学术界和工业界的普及,人们越来越认识到数据对于科研和应用的重要性。虽然现在相关的工具和框架大大降低了构建数据应用的门槛,数据科学基础对应用的构建依然起着核心的作用。本文介绍微软研究院新版书籍《数据科学基础》。

成为VIP会员查看完整内容
0
35
小贴士
相关资讯
2019社交行业研究报告
行业研究报告
4+阅读 · 2019年5月30日
免费教材-《数据科学基础-2018》最新版下载
深度学习与NLP
24+阅读 · 2018年12月28日
中国工程院:《全球工程前沿2018》(附PDF下载)
走向智能论坛
4+阅读 · 2018年12月5日
德勤:工业4.0与数字孪生(附PDF下载)
走向智能论坛
8+阅读 · 2018年9月6日
深度学习综述(下载PDF版)
机器学习算法与Python学习
19+阅读 · 2018年7月3日
相关VIP内容
相关论文
Wenwu Zhu,Xin Wang,Peng Cui
18+阅读 · 2020年1月2日
Alexis Conneau,Kartikay Khandelwal,Naman Goyal,Vishrav Chaudhary,Guillaume Wenzek,Francisco Guzmán,Edouard Grave,Myle Ott,Luke Zettlemoyer,Veselin Stoyanov
4+阅读 · 2019年11月5日
SlowFast Networks for Video Recognition
Christoph Feichtenhofer,Haoqi Fan,Jitendra Malik,Kaiming He
4+阅读 · 2019年4月18日
Deep Learning for Energy Markets
Michael Polson,Vadim Sokolov
3+阅读 · 2019年4月10日
Chi Nhan Duong,Khoa Luu,Kha Gia Quach,Nghia Nguyen,Eric Patterson,Tien D. Bui,Ngan Le
3+阅读 · 2018年11月27日
Medhini Narasimhan,Svetlana Lazebnik,Alexander G. Schwing
4+阅读 · 2018年11月1日
Paraphrase Generation with Deep Reinforcement Learning
Zichao Li,Xin Jiang,Lifeng Shang,Hang Li
3+阅读 · 2018年8月23日
Ozan Oktay,Jo Schlemper,Loic Le Folgoc,Matthew Lee,Mattias Heinrich,Kazunari Misawa,Kensaku Mori,Steven McDonagh,Nils Y Hammerla,Bernhard Kainz,Ben Glocker,Daniel Rueckert
16+阅读 · 2018年5月20日
Dan Xu,Xavier Alameda-Pineda,Jingkuan Song,Elisa Ricci,Nicu Sebe
7+阅读 · 2018年3月5日
Weiyu Lan,Xirong Li,Jianfeng Dong
3+阅读 · 2017年8月15日
Top