【干货书-斯坦福】最优化算法,521页pdf,《Algorithms for Optimization》MIT出版社

2020 年 7 月 2 日 专知
【干货书-斯坦福】最优化算法,521页pdf,《Algorithms for Optimization》MIT出版社


这本书全面介绍优化工程系统设计的实用算法。这本书从工程的角度进行优化,其目标是设计一个系统来优化受约束的一组指标。读者将学习一系列挑战的计算方法,包括高维搜索空间,处理有多个竞争目标的问题,以及适应指标中的不确定性。图表、例子和练习传达了数学方法背后的直觉。文本提供了Julia编程语言的具体实现。


https://mitpress.mit.edu/books/algorithms-optimization


许多学科的核心都涉及到优化。在物理学中,系统被驱动到他们的最低能量状态服从物理定律。在商业上,公司的目标是股东价值最大化。在生物学中,越健康的生物体越有可能生存下来。这本书将从工程的角度关注优化,目标是设计一个系统来优化受约束的一组指标。这个系统可以是一个复杂的物理系统,比如飞机,也可以是一个简单的结构,比如自行车车架。这个系统甚至可能不是物理的;例如,我们可能会有兴趣为自动化车辆设计一个控制系统,或设计一个计算机视觉系统来检测肿瘤活检的图像是否为癌。我们希望这些系统能运行得尽可能好。根据应用程序的不同,相关的度量可能包括效率、安全性和准确性。对设计的限制可能包括成本、重量和结构坚固性。


这本书是关于优化的算法,或计算过程。给定系统设计的一些表示,如编码机翼几何的一组数字,这些算法将告诉我们如何搜索空间的可能设计,以找到最好的一个。根据应用程序的不同,这种搜索可能涉及运行物理实验,比如风洞测试,也可能涉及计算解析表达式或运行计算机模拟。我们将讨论解决各种挑战的计算方法,例如如何搜索高维空间,处理有多个竞争目标的问题,以及适应指标中的不确定性。



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“A521” 可以获取《最优化算法,521页pdf,《Algorithms for Optimization》MIT出版社》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
欢迎扫一扫关注专知视频号,第一时间看人工智能最新精彩视频!

点击“阅读原文”,了解使用专知,查看获取5000+AI主题知识资源
登录查看更多
8

相关内容

最优化是应用数学的一个分支,主要指在一定条件限制下,选取某种研究方案使目标达到最优的一种方法。最优化问题在当今的军事、工程、管理等领域有着极其广泛的应用。

【导读】深度神经网络在很多监督任务都达到了SOTA性能,但是其计算量是个挑战。来自MIT 教授 Vivienne Sze等学者发布了关于《深度神经网络的高效处理》著作,本书为深度神经网络(DNNs)的高效处理提供了关键原则和技术的结构化处理。值得关注。

https://www.morganclaypoolpublishers.com/catalog_Orig/product_info.php?cPath=22&products_id=1530

本书为深度神经网络(DNNs)的高效处理提供了关键原则和技术的结构化处理。DNNs目前广泛应用于许多人工智能(AI)应用,包括计算机视觉、语音识别和机器人技术。虽然DNNs在许多人工智能任务中提供了最好的性能,但它以高计算复杂度为代价。因此,在不牺牲准确性或增加硬件成本的情况下,能够有效处理深层神经网络以提高指标(如能源效率、吞吐量和延迟)的技术对于在人工智能系统中广泛部署DNNs至关重要。

本书中包括了DNN处理的背景知识;设计DNN加速器的硬件架构方法的描述和分类;评价和比较不同设计的关键指标;DNN处理的特点是服从硬件/算法的共同设计,以提高能源效率和吞吐量;以及应用新技术的机会。读者将会发现对该领域的结构化介绍,以及对现有工作中关键概念的形式化和组织,从而提供可能激发新想法的见解。

深度神经网络(DNNs)已经变得非常流行; 然而,它们是以高计算复杂度为代价的。因此,人们对有效处理DNNs产生了极大的兴趣。DNN加速的挑战有三:

  • 为了实现高性能和效率
  • 提供足够的灵活性,以满足广泛和快速变化的工作负载范围
  • 能够很好地集成到现有的软件框架中。

目录内容:

第一部分理解深层神经网络

  • 介绍
  • 深度神经网络概述

第二部分处理DNNs的硬件设计

  • 关键量度和设计目标
  • 内核计算
  • 设计DNN加速器
  • 专用硬件上的操作映射

第三部分,DNN硬件和算法的协同设计

  • 减少精度
  • 利用稀疏
  • 设计高效的DNN模型
  • 先进技术
  • 结论

第一个模块旨在提供DNN领域的总体背景和了解DNN工作负载的特点。

  • 第一章提供了DNNs为什么重要的背景,他们的历史和他们的应用。
  • 第二章概述了神经网络的基本组成部分和目前常用的神经网络模型。还介绍了用于DNN研究和开发的各种资源。这包括各种软件框架的讨论,以及用于训练和评估的公共数据集。

第二部分主要介绍处理DNNs的硬件设计。它根据定制程度(从通用平台到完全定制硬件)讨论各种架构设计决策,以及在将DNN工作负载映射到这些架构时的设计考虑。同时考虑了时间和空间架构。

  • 第三章描述了在设计或比较各种DNN加速器时应该考虑的关键指标。
  • 第四章描述了如何处理DNN内核,重点关注的是时序架构,比如cpu和gpu。为了获得更高的效率,这类架构通常具有缓存层次结构和粗粒度的计算能力,例如向量指令,从而使计算结果更高效。对于这样的架构,DNN处理通常可以转化为矩阵乘法,这有很多优化的机会。本章还讨论了各种软件和硬件优化,用于加速这些平台上的DNN计算,而不影响应用程序的精度。
  • 第五章介绍了DNN处理专用硬件的设计,重点介绍了空间架构。它强调了用于处理DNN的硬件的处理顺序和产生的数据移动,以及与DNN的循环嵌套表示的关系。循环嵌套中的循环顺序称为数据流,它决定了移动每个数据块的频率。循环嵌套中的循环限制描述了如何将DNN工作负载分解成更小的块,称为平铺/阻塞,以说明在内存层次结构的不同级别上有限的存储容量。
  • 第六章介绍了将DNN工作负载映射到DNN加速器的过程。它描述了找到优化映射所需的步骤,包括枚举所有合法映射,并通过使用预测吞吐量和能源效率的模型来搜索这些映射。

第三个模块讨论了如何通过算法和硬件的协同设计来提高堆栈的效率,或者通过使用混合信号电路新的存储器或设备技术来降低堆栈的效率。在修改算法的情况下,必须仔细评估对精度的影响。

  • 第七章描述了如何降低数据和计算的精度,从而提高吞吐量和能源效率。它讨论了如何使用量化和相关的设计考虑来降低精度,包括硬件成本和对精度的影响。
  • 第八章描述了如何利用DNNs的稀疏性来减少数据的占用,这为减少存储需求、数据移动和算术操作提供了机会。它描述了稀疏的各种来源和增加稀疏的技术。然后讨论了稀疏DNN加速器如何将稀疏转化为能源效率和吞吐量的提高。它还提出了一种新的抽象数据表示,可用于表达和获得关于各种稀疏DNN加速器的数据流的见解。
  • 第九章描述了如何优化DNN模型的结构(即(例如DNN的“网络架构”),以提高吞吐量和能源效率,同时尽量减少对准确性的影响。它讨论了手工设计方法和自动设计方法(例如。(如神经结构搜索)
  • 第十章,关于先进技术,讨论了如何使用混合信号电路和新的存储技术,使计算更接近数据(例如,在内存中处理),以解决昂贵的数据移动,支配吞吐量和DNNs的能源消耗。并简要讨论了在光域内进行计算和通信以降低能耗和提高吞吐量的前景。

Vivienne Sze,来自 MIT 的高效能多媒体系统组(Energy-Efficient Multimedia Systems Group)。她曾就读于多伦多大学,在 MIT 完成 PhD 学业并获得电气工程博士学位,目前在 MIT 任教。Sze 教授的主要研究兴趣是高效能算法和移动多媒体设备应用架构。

成为VIP会员查看完整内容
0
91

内容介绍:

计算机科学正在发展,以利用新的硬件,如GPU、TPUs、CPU和大型的集群。许多子领域,如机器学习和优化,已经调整了它们的算法来处理这样的集群。

主题包括分布式和并行算法:优化、数值线性代数、机器学习、图形分析、流形算法,以及其他在集群中难以扩展的问题。该类将重点分析程序,并使用Apache Spark和TensorFlow实现一些程序。

本课程将分为两部分:首先,介绍并行算法的基础知识和在单多核机器上的运行时分析。其次,我们将介绍在集群机器上运行的分布式算法。

成为VIP会员查看完整内容
0
53

题目: Meta-Learning in Neural Networks: A Survey

简介: 近年来,元学习领域的兴趣急剧上升。与使用固定学习算法从头解决给定任务的传统AI方法相反,元学习旨在根据多次学习事件的经验来改善学习算法本身。这种范例为解决深度学习的许多传统挑战提供了机会,包括数据和计算瓶颈以及泛化的基本问题。在本次调查中,我们描述了当代的元学习环境。我们首先讨论元学习的定义,并将其相对于相关领域(例如转移学习,多任务学习和超参数优化)进行定位。然后,我们提出了一种新的分类法,该分类法为当今的元学习方法提供了更为全面的细分。我们调查了元学习的有希望的应用程序和成功案例,包括,强化学习和架构搜索。最后,我们讨论了未来研究的突出挑战和有希望的领域。

成为VIP会员查看完整内容
0
57

本书概述了现代数据科学重要的数学和数值基础。特别是,它涵盖了信号和图像处理(傅立叶、小波及其在去噪和压缩方面的应用)、成像科学(反问题、稀疏性、压缩感知)和机器学习(线性回归、逻辑分类、深度学习)的基础知识。重点是对方法学工具(特别是线性算子、非线性逼近、凸优化、最优传输)的数学上合理的阐述,以及如何将它们映射到高效的计算算法。

https://mathematical-tours.github.io/book/

它应该作为数据科学的数字导览的数学伴侣,它展示了Matlab/Python/Julia/R对这里所涵盖的所有概念的详细实现。

成为VIP会员查看完整内容
0
206

对因果推理的简明和自成体系的介绍,在数据科学和机器学习中越来越重要。

因果关系的数学化是一个相对较新的发展,在数据科学和机器学习中变得越来越重要。这本书提供了一个独立的和简明的介绍因果模型和如何学习他们的数据。在解释因果模型的必要性,讨论潜在的因果推论的一些原则,这本书教读者如何使用因果模型:如何计算干预分布,如何从观测推断因果模型和介入的数据,和如何利用因果思想经典的机器学习问题。所有这些主题都将首先以两个变量的形式进行讨论,然后在更一般的多元情况下进行讨论。对于因果学习来说,二元情况是一个特别困难的问题,因为经典方法中用于解决多元情况的条件独立不存在。作者认为分析因果之间的统计不对称是非常有意义的,他们报告了他们对这个问题十年来的深入研究。

本书对具有机器学习或统计学背景的读者开放,可用于研究生课程或作为研究人员的参考。文本包括可以复制和粘贴的代码片段、练习和附录,其中包括最重要的技术概念摘要。

首先,本书主要研究因果关系推理子问题,这可能被认为是最基本和最不现实的。这是一个因果问题,需要分析的系统只包含两个可观测值。在过去十年中,作者对这个问题进行了较为详细的研究。本书整理这方面的大部分工作,并试图将其嵌入到作者认为对研究因果关系推理问题的选择性至关重要的更大背景中。尽管先研究二元(bivariate)案例可能有指导意义,但按照章节顺序,也可以直接开始阅读多元(multivariate)章节;见图一。

第二,本书提出的解决方法来源于机器学习和计算统计领域的技术。作者对其中的方法如何有助于因果结构的推断更感兴趣,以及因果推理是否能告诉我们应该如何进行机器学习。事实上,如果我们不把概率分布描述的随机实验作为出发点,而是考虑分布背后的因果结构,机器学习的一些最深刻的开放性问题就能得到最好的理解。
成为VIP会员查看完整内容
0
267

题目: Optimization for deep learning: theory and algorithms

摘要:

什么时候以及为什么能够成功地训练神经网络?本文概述了神经网络的优化算法和训练理论。首先,我们讨论了梯度爆炸、消失问题,然后讨论了实际的解决方案,包括初始化和归一化方法。其次,我们回顾了用于训练神经网络的一般优化方法,如SGD、自适应梯度方法和分布式方法以及这些算法的理论结果。第三,我们回顾了现有的关于神经网络训练的全局问题的研究,包括局部极值的结果、模式连接、无限宽度分析。

作者:

Ruoyu Sun是伊利诺伊大学厄本那香槟分校 (UIUC)电子与计算机工程系的助理教授,研究优化和机器学习,尤其是深度学习。最近,一直在研究深度学习中的最优化,例如神经网络,GANs和Adam。

摘要

什么时候以及为什么能够成功地训练神经网络?本文概述了神经网络的优化算法和训练理论。首先,我们讨论了梯度爆炸/消失问题和更一般的不期望谱问题,然后讨论了实际的解决方案,包括仔细的初始化和归一化方法。其次,我们回顾了用于训练神经网络的一般优化方法,如SGD、自适应梯度方法和分布式方法,以及这些算法的现有理论结果。第三,我们回顾了现有的关于神经网络训练的全局问题的研究,包括局部极值的结果、模式连接、彩票假设和无限宽度分析。

  1. 概述

本文的一个主要主题是了解成功训练神经网络的实际组成部分,以及可能导致训练失败的因素。假设你在1980年试图用神经网络解决一个图像分类问题。如果你想从头开始训练一个神经网络,很可能你最初的几次尝试都没有得到合理的结果。什么本质的变化使算法能有效进行?在高层次上,你需要三样东西(除了强大的硬件): 合适的神经网络、合适的训练算法和合适的训练技巧。

合适的神经网络。这包括神经结构和激活功能。对于神经结构,您可能想要用一个至少有5层和足够神经元的卷积网络来替换一个完全连接的网络。为了获得更好的性能,您可能希望将深度增加到20甚至100,并添加跳跃skip连接。对于激活函数,一个好的起点是ReLU激活,但是使用tanh或swish激活也是合理的。

训练算法。一个大的选择是使用随机版本的梯度下降(SGD)并坚持它。良好调整的步长足够好,而动量和自适应步长可以提供额外的好处。

训练技巧。适当的初始化对于算法的训练是非常重要的。要训练一个超过10层的网络,通常需要两个额外的技巧:添加规范化层和添加跳过连接。

哪些设计选择是必要的?目前我们已经了解了一些设计选择,包括初始化策略、规范化方法、跳过连接、参数化(大宽度)和SGD,如图1所示。我们将优化优势大致分为三部分: 控制Lipschitz常数、更快的收敛速度和更好的landscape。还有许多其他的设计选择是很难理解的,尤其是神经架构。无论如何,似乎不可能理解这个复杂系统的每个部分,目前的理解已经可以提供一些有用的见解。

图1: 成功训练具有理论理解的神经网络的几个主要设计选择。它们对算法收敛的三个方面有影响:使收敛成为可能、更快的收敛和更好的全局解。这三个方面有一定的联系,只是一个粗略的分类。请注意,还有其他一些重要的设计选择,特别是神经体系结构,它们在理论上还没有被理解,因此在该图中被省略了。还有其他好处,比如泛化,也被忽略了。

为了使综述调查简单,我们将重点研究前馈神经网络的监督学习问题。我们将不讨论更复杂的公式,如GANs(生成对抗网络)和深度强化学习,也不讨论更复杂的体系结构,如RNN(递归神经网络)、attention和Capsule。在更广泛的背景下,监督学习理论至少包含表示、优化和泛化(参见1.1节),我们不详细讨论表示和泛化。一个主要的目标是理解神经网络结构(由许多变量连接的参数化)如何影响优化算法的设计和分析,这可能会超越监督学习。

这篇文章是为那些对神经网络优化的理论理解感兴趣的研究人员写的。关于优化方法和基础理论的先验知识将非常有帮助(参见,[24,200,29]的准备)。现有的关于深度学习优化的调查主要针对一般的机器学习受众,如Goodfellow等[76]的第8章。这些综述通常不深入讨论优化的理论方面。相反,在这篇文章中,我们更多地强调理论结果,同时努力使它对非理论读者具有可访问性。如果可能的话,我们将提供一些简单的例子来说明这种直觉,我们将不解释定理的细节。

1.1 大景观:分解理论

分解是发展理论的一个有用且流行的元方法。首先简要回顾了优化在机器学习中的作用,然后讨论了如何分解深度学习的优化理论。

表示、优化和泛化。监督学习的目标是根据观察到的样本找到一个近似底层函数的函数。第一步是找到一个丰富的函数家族(如神经网络),可以代表理想的函数。第二步是通过最小化某个损失函数来识别函数的参数。第三步是使用第二步中找到的函数对不可见的测试数据进行预测,产生的错误称为测试错误。测试误差可以分解为表示误差、优化误差和泛化误差,分别对应这三个步骤引起的误差。

在机器学习中,表示、优化和泛化这三个学科经常被分开研究。例如,在研究一类函数的表示能力时,我们往往不关心优化问题能否很好地解决。在研究泛化误差时,我们通常假设已经找到了全局最优值(概化调查见[95])。类似地,在研究优化属性时,我们通常不明确地考虑泛化误差(但有时我们假定表示误差为零)。

优化问题的分解。深度学习的优化问题比较复杂,需要进一步分解。优化的发展可以分为三个步骤。第一步是使算法开始运行,并收敛到一个合理的解,如一个固定点。第二步是使算法尽快收敛。第三步是确保算法收敛到一个低目标值的解(如全局极小值)。要获得良好的测试精度,还有一个额外的步骤,但是这超出了优化的范围。简而言之,我们将优化问题分为三个部分: 收敛性、收敛速度和全局质量。

大部分工作的回顾分为三个部分: 第四部分,第五部分和第六部分。大致说来,每个部分主要是由优化理论的三个部分之一。然而,这种划分并不精确,因为这三个部分之间的边界是模糊的。例如,第4节中讨论的一些技术也可以提高收敛速度,第6节中的一些结果解决了收敛问题和全局问题。划分的另一个原因是它们代表了神经网络优化的三个相当独立的子领域,并且在一定程度上是独立发展的。

1.2 文章结构

这篇文章的结构如下。在第二节中,我们提出了一个典型的监督学习神经网络优化问题。在第三节中,我们提出了反向传播(BP),并分析了将经典收敛分析应用于神经网络梯度下降的困难。在第四节中,我们将讨论训练神经网络的神经网络特定技巧,以及一些基本理论。这些是神经网络相关的方法,打开了神经网络的黑盒子。特别地,我们讨论了一个主要的挑战,称为梯度爆炸/消失和一个更普遍的挑战,控制频谱,并回顾了主要的解决方案,如仔细的初始化和归一化方法。在第五节中,我们讨论了将神经网络视为一般非凸优化问题的泛型算法设计。特别地,我们回顾了SGD的各种学习速率调度、自适应梯度方法、大规模分布式训练、二阶方法以及现有的收敛和迭代复杂度结果。在第六节中,我们回顾了神经网络的全局优化研究,包括全局景观、模式连接、彩票假设和无限宽度分析(如神经正切核)。

更多请下载论文查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

后台回复“

成为VIP会员查看完整内容
0
81
小贴士
相关论文
Hyper-Parameter Optimization: A Review of Algorithms and Applications
Tong Yu,Hong Zhu
12+阅读 · 2020年3月12日
Optimization for deep learning: theory and algorithms
Ruoyu Sun
78+阅读 · 2019年12月19日
Kamran Kowsari,Kiana Jafari Meimandi,Mojtaba Heidarysafa,Sanjana Mendu,Laura E. Barnes,Donald E. Brown
11+阅读 · 2019年6月25日
Bryan Wilder,Eric Ewing,Bistra Dilkina,Milind Tambe
4+阅读 · 2019年5月31日
Kwonjoon Lee,Subhransu Maji,Avinash Ravichandran,Stefano Soatto
3+阅读 · 2019年4月23日
Wenhui Zhang,Tejas Mahale
3+阅读 · 2018年12月13日
LaneNet: Real-Time Lane Detection Networks for Autonomous Driving
Ze Wang,Weiqiang Ren,Qiang Qiu
3+阅读 · 2018年7月4日
Abhishek Gupta,Benjamin Eysenbach,Chelsea Finn,Sergey Levine
6+阅读 · 2018年6月12日
Srikrishna Karanam,Mengran Gou,Ziyan Wu,Angels Rates-Borras,Octavia Camps,Richard J. Radke
5+阅读 · 2018年2月14日
Top