数据科学(英語:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

VIP内容

数据驱动的发现正在彻底改变复杂系统的建模、预测和控制。这本教科书汇集了机器学习、工程数学和数学物理,将动态系统的建模和控制与现代数据科学方法相结合。它强调了科学计算领域的许多最新进展,使数据驱动的方法能够应用于各种复杂系统,如湍流、大脑、气候、流行病学、金融、机器人和自主。旨在在工程和物理科学的高级本科和开始研究生,文本提出了从介绍到艺术的状态的一系列主题和方法。

主要特点:

  • 深入的工作示例与全面的开源代码

  • 对复杂概念及其应用的简明易懂的解释

  • 广泛的在线补充包括练习,案例研究,课程视频,数据和补充代码

第一部分:降维与变换

尽管测量和计算的分辨率迅速提高,但许多复杂系统在数据中表现出主导的低维模式。模式提取涉及到找到坐标变换,从而简化系统。的确,数学物理的丰富历史是以坐标变换为中心的(例如,谱分解、傅里叶变换、广义函数等),尽管这些技术在很大程度上仅限于简单的理想化几何和线性动力学。获得数据驱动转换的能力为将这些技术推广到具有更复杂几何和边界条件的新研究问题提供了机会。

这本书的这一部分将调查两个最强大和普遍的算法转换和减少数据:奇异值分解(SVD)和傅立叶变换。数据可以在这些转换后的坐标系统中压缩,这一事实使建模和控制的高效传感和紧凑表示成为可能。因此,第三章涉及到利用这种低维结构的稀疏采样方法。

第二部分:机器学习和数据分析

机器学习是基于数据优化技术的。目标是找到一个低秩子空间来最优地嵌入数据,以及回归方法来聚类和分类不同的数据类型。因此,机器学习提供了一套有原则的数学方法,用于从数据中提取有意义的特征,即数据挖掘,以及将数据分成不同的有意义的模式,可以用于决策制定、状态估计和预测。具体来说,它从数据中学习并根据数据做出预测。对于商业应用程序,这通常被称为预测分析,它处于现代数据驱动决策制定的前沿。在一个集成系统中,如自主机器人,各种机器学习组件(例如,处理视觉和触觉刺激)可以被集成,形成我们现在所说的人工智能(AI)。明确地说,人工智能建立在集成的机器学习算法之上,而机器学习算法又从根本上植根于优化。

第三部分:动力学和控制

数据驱动的发现正在彻底改变我们建模、预测和控制复杂系统的方式。现代最紧迫的科学和工程问题是不服从经验模型或基于第一性原理的推导的。研究人员越来越多地转向数据驱动的方法,用于各种复杂系统,如动荡、大脑、气候、流行病学、金融、机器人和自主。这些系统通常是非线性的、动态的、空间和时间的多尺度的、高维的,具有主导的潜在模式,应该为感知、预测、估计和控制的最终目标进行特征化和建模。借助现代数学方法,以及前所未有的可用数据和计算资源,我们现在能够解决以前无法实现的挑战问题。

第四部分:简化订单模型(ROMs)

适当的正交分解(POD)是应用于偏微分方程(PDEs)的SVD算法。因此,它是研究复杂时空系统最重要的降维技术之一。这样的系统典型的例子是非线性偏微分方程,它规定了在给定的物理、工程和/或生物系统中感兴趣的数量在时间和空间上的进化。POD的成功与一个普遍存在的现象有关:在大多数复杂系统中,有意义的行为被编码在动态活动的低维模式中。POD技术试图利用这一事实,以生产能够精确建模控制复杂系统的完整时空演化的低秩动力系统。具体来说,简化阶模型(ROMs)利用POD模式将PDE动力学投影到低阶子空间,在这些子空间中,控制PDE模型的模拟可以更容易地进行评估。重要的是,ROM产生的低秩模型在计算速度方面有了显著的改进,潜在地使昂贵的PDE系统蒙特卡罗模拟、参数化PDE系统的优化和/或基于PDE的系统的实时控制成为可能。

成为VIP会员查看完整内容
0
36
Top