过去的十年见证了深度学习(DL)应用数据量的巨大增长。因此,深度神经网络(DNNs)的训练时间过长已经成为机器学习(ML)开发者和研究者的瓶颈。例如,在8个P100 gpu上完成90-epoch ImageNet/ResNet-50的训练需要29个小时。在16个v3 TPU芯片上完成BERT预训练需要81小时。本文主要研究的是快速准确的ML训练。尽管生产团队希望充分利用超级计算机来加速训练过程,但传统的优化器无法扩展到数千个处理器。在本论文中,我们设计了一系列基本的优化算法来提高DL系统的并行度。我们的算法为谷歌、英特尔、腾讯、英伟达等最先进的分布式系统提供支持。本文的重点是弥合高性能计算(HPC)和ML之间的差距。

在2017年HPC和ML之间有很大的差距。一方面,我们拥有强大的超级计算机,每秒可以执行2x10^17个浮点运算。另一方面,我们甚至不能充分利用1%的计算能力来训练一个最先进的机器学习模型。原因是超级计算机需要极高的并行度才能达到其峰值性能。然而,高并行性导致ML优化器的收敛性很差。为了解决这个问题,我和我的合著者提出了LARS优化器、LAMB优化器和CA-SVM框架。这些新方法使ML训练扩展到数千个处理器而不会失去准确性。在过去的三年里,我们观察到ResNet-50的训练时间从29小时下降到67.1秒。事实上,自2017年12月以来,所有最先进的ImageNet训练速度记录都是由LARS创造的。LARS在MLPerf v0.6中成为行业指标。此外,即使没有超级计算机,我们的方法也比现有的求解器要快。如果我们固定训练预算(例如1个GPU 1小时),我们的优化器可以达到一个更高的精度比最先进的基线。

成为VIP会员查看完整内容
0
38

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

尽管它在机器学习中有重要的应用,非凸非凹目标的最小-最大优化仍然是难以实现的。不仅没有已知的一阶方法收敛甚至近似局部最小最大点,而且识别它们的计算复杂度也不为人所知。本文给出了非凸非凹目标和线性约束的约束最小-最优优化问题的计算复杂度,以及一阶方法的局限性。

https://arxiv.org/abs/2009.09623

成为VIP会员查看完整内容
0
23

当前的深度学习研究以基准评价为主。如果一种方法在专门的测试集上有良好的经验表现,那么它就被认为是有利的。这种心态无缝地反映在连续学习的重现领域,在这里研究的是持续到达的基准数据集。核心挑战是如何保护之前获得的表示,以免由于迭代参数更新而出现灾难性地遗忘的情况。然而,各个方法的比较是与现实应用程序隔离的,通常通过监视累积的测试集性能来判断。封闭世界的假设仍然占主导地位。假设在部署过程中,一个模型保证会遇到来自与用于训练的相同分布的数据。这带来了一个巨大的挑战,因为众所周知,神经网络会对未知的实例提供过于自信的错误预测,并在数据损坏的情况下崩溃。在这个工作我们认为值得注意的教训来自开放数据集识别,识别的统计偏差以外的数据观测数据集,和相邻的主动学习领域,数据增量查询等预期的性能收益最大化,这些常常在深度学习的时代被忽略。基于这些遗忘的教训,我们提出了一个统一的观点,以搭建持续学习,主动学习和开放集识别在深度神经网络的桥梁。我们的结果表明,这不仅有利于每个个体范式,而且突出了在一个共同框架中的自然协同作用。我们从经验上证明了在减轻灾难性遗忘、主动学习中查询数据、选择任务顺序等方面的改进,同时在以前提出的方法失败的地方展示了强大的开放世界应用。****

成为VIP会员查看完整内容
0
56

机器人研究的一个长期目标是创建能够从零开始自动学习复杂控制策略的算法。将这种算法应用到机器人上的挑战之一是表示的选择。强化学习(RL)算法已经成功地应用于许多不同的机器人任务中,如带有机器人手臂的cup中的Ball-in-a-Cup任务和各种机器人世界杯机器人足球启发的领域。然而,RL算法仍然存在训练时间长、所需训练数据量大的问题。为状态空间、行动空间和策略选择合适的表示可以大大减少所需的训练时间和所需的训练数据。

本文主要研究机器人的深度强化学习。具体来说,状态空间、动作空间和策略表示的选择如何减少机器人学习任务的训练时间和样本复杂度。特别集中注意两个主要领域: 1)通过张量状态-动作空间表示 2)多状态表示的辅助任务学习

第一个领域探索了在环境变化中改进机器人策略迁移的方法。学习策略的成本可能很高,但是如果策略可以在类似的环境中传输和重用,那么训练成本可以平摊。迁移学习是一个被广泛研究的领域,涉及多种技术。在这篇论文中,我们着重设计一个易于传输的表示。我们的方法将状态空间和动作空间映射为多维张量,设计成当环境中机器人和其他对象的数量变化时保持固定维数。我们还提出了全卷积Q-Network (FCQN)策略表示,这是一种特殊的网络架构,与张量表示相结合,允许跨环境大小进行零距离传输。我们在模拟的单代理和多代理任务上演示了这种方法,灵感来自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我们还表明,在真实世界的传感器数据和机器人中使用这样的表示和模拟训练策略是可能的。

第二个领域考察了一个机器人深度RL状态表示的优势如何弥补另一个机器人深度RL状态表示的劣势。例如,我们经常想要利用机器人可用的传感器来学习任务,其中包括像摄像机这样的高维传感器。最近的Deep RL算法可以通过图像进行学习,但是数据的数量对于真实的机器人来说是难以接受的。或者,可以使用任务完成所需的最小集创建状态。这样做的好处是:1)减少策略参数的数量,2)删除不相关的信息。然而,提取这些特征通常会在工程、额外硬件、校准和实验室之外的脆弱性方面有很大的成本。我们在仿真和现实世界的多个机器人平台和任务上演示了这一点。我们证明它在模拟的RoboCup小型联赛(SSL)机器人上工作。我们还演示了这样的技术允许在真实的硬件上从零开始学习,通过机器人手臂执行一个球在一个杯子的任务。

https://www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

成为VIP会员查看完整内容
0
51

经典的随机优化结果通常假设数据的各种属性的已知值(例如Lipschitz常数、到最优点的距离、平滑性或强凸性常数)。不幸的是,在实践中,这些值是未知的,因此必须经过长时间的反复试验才能找到最佳参数。

为了解决这一问题,近年来许多无参数算法已经被开发用于在线优化和在线学习。无参数算法对数据的性质不作任何假设,但收敛速度与最优优化算法一样快。

这是一项令人兴奋的工作,现在已经足够成熟,可以教授给普通观众了。实际上,这些算法还没有得到机器学习社区的适当介绍,只有少数人完全理解它们。本教程旨在弥补这一差距,介绍使用和设计无参数算法的实践和理论。我们将介绍该领域的最新进展,包括优化、深度学习和使用内核学习的应用。

https://parameterfree.com/icml-tutorial/

成为VIP会员查看完整内容
0
43

在过去的20年里,基因组学、神经科学、经济学和互联网服务等许多领域产生了越来越多的大数据集,这些数据集有高维、大样本,或者两者兼之。这为我们从数据中检索和推断有价值的信息提供了前所未有的机会。同时,也对统计方法和计算算法提出了新的挑战。一方面,我们希望建立一个合理的模型来捕获所需的结构,并提高统计估计和推断的质量。另一方面,面对越来越大的数据集,计算可能成为一个巨大的障碍,以得出有意义的结论。这篇论文站在两个主题的交叉点,提出了统计方法来捕获所需的数据结构,并寻求可扩展的方法来优化计算非常大的数据集。我们提出了一种可扩展的灵活框架,用于利用lasso/elastic-net解决大规模稀疏回归问题; 提出了一种可伸缩的框架,用于在存在多个相关响应和其他细微差别(如缺失值)的情况下解决稀疏缩减秩回归问题。分别在snpnet和multiSnpnet R包中以PLINK 2.0格式为基因组数据开发了优化的实现。这两种方法在超大和超高维的英国生物样本库研究中得到了验证,与传统的预测建模方法相比有了显著的改进。此外,我们考虑了一类不同的高维问题,异质因果效应的估计。与监督学习的设置不同,这类问题的主要挑战在于,在历史数据中,我们从未观察到硬币的另一面,因此我们无法获得处理之间真正差异的基本真相。我们提出适应非参数统计学习方法,特别是梯度增强和多元自适应回归样条,以估计处理效果的预测器可用。实现被打包在一个R包causalLearning中。

成为VIP会员查看完整内容
0
62

当对大量的标记数据集合(如ImageNet)进行训练时,深度神经网络展示了它们在特殊监督学习任务(如图像分类)上的卓越表现。然而,创建这样的大型数据集需要大量的资源、时间和精力。这些资源在很多实际案例中可能无法获得,限制了许多深度学习方法的采用和应用。为了寻找数据效率更高的深度学习方法,以克服对大型标注数据集的需求,近年来,我们对半监督学习应用于深度神经网络的研究兴趣日益浓厚,通过开发新的方法和采用现有的半监督学习框架进行深度学习设置。在本文中,我们从介绍半监督学习开始,对深度半监督学习进行了全面的概述。然后总结了在深度学习中占主导地位的半监督方法。

成为VIP会员查看完整内容
0
104

【导读】机器学习和系统芯片互相促进发展,近年来机器学习算法深刻改变了计算硬件资源的发展。最近谷歌发布了强化学习用于芯片布局的论文。在加州理工的《数据驱动算法设计》课程上,GOOGLE两位研究人员Azalia Mirhoseini & Anna Goldie做了《机器学习在系统和芯片设计》的报告,讲述了机器学习芯片设计技术,值得关注。Jeff Dean在Twitter做了推荐。

在过去的十年中,系统和硬件已经改变了机器学习。现在是机器学习改变系统和硬件的时候了。在芯片设计过程中,芯片布局(chip placement)可以说是其中最复杂和耗时的步骤了。芯片设计周期的缩短有助于硬件设备适应机器学习领域的快速发展,那么,机器学习能否助力芯片设计呢?最近,谷歌提出了一种基于强化学习的芯片布局方法。本报告内容包括:

  • 学习优化器件放置
  • 学习配分图
  • 学习优化芯片布局

概述

计算机芯片通常分为数十个模块,每个模块都是一个单独的模组,例如内存的子系统、计算单元以及控制逻辑的系统。这些模块可以通过网表以及宏(内存组件)和标准单元(逻辑门,例如 NAND、NOR 和 XOR)等电路组件图来描述,而所有这些组件均通过网格连接。

确定芯片如何布局(通常称为芯片的布局规划过程)是芯片设计过程中最复杂、最耗时的阶段之一,它涉及到将网表放置在芯片的画布(2D 网格)上,尽可能使得功率、性能和面积(PPA)降至最低,同时还要注意密度和布线拥塞方面的限制。

尽管对此方向进行了数十年的研究,但是行业内专家仍然需要迭代数周的时间才能完成一个满足多方面设计标准的解决方案。简单来说,其复杂性来自于几个主要层面:网表图的大小(数百万至数十亿个节点)、网表图放置的网格粒度,以及计算真实目标所产生的过高成本,如果使用行业标准的电子设计自动化工具这个计算过程可能要花费数小时(有时甚至超过一天)。

谷歌研究者将芯片布局看作一个强化学习问题,然后训练智能体将芯片网表(netlist)的节点放置在芯片画布(canvas)上。为了使强化学习策略泛化至新的芯片 block,研究者将表征学习置于预测芯片布局质量的监督任务中。通过设计能够在大量网表及其布局上准确预测奖励的神经架构,该研究生成输入网表的丰富特征嵌入。然后利用该架构作为策略和价值网络的编码器,实现迁移学习。

该研究旨在最小化芯片设计的 PPA(功耗、性能和面积)。研究者称,该方法能够在 6 小时内完成芯片布局设计,布局质量超过或匹配人类设计,而现有的基线方法需要人类专家参与,且往往需要数周时间才能完成。此外,谷歌还表示,该方法可以为谷歌加速器芯片(TPU)生成更优化的芯片放置方案,还适用于任意类型的芯片(ASIC)。 Chip Placement with Deep Reinforcement Learning

博客链接:http://ai.googleblog.com/2020/04/chip-design-with-deep-reinforcement.html

作者:Azalia Mirhoseini、Anna Goldie、Jeff Dean 等 论文链接:https://arxiv.org/pdf/2004.10746.pdf

摘要:在芯片设计过程中,芯片布局(chip placement)可以说是其中最复杂和耗时的步骤了。芯片设计周期的缩短有助于硬件设备适应机器学习领域的快速发展,那么,机器学习能否助力芯片设计呢?最近,谷歌提出了一种基于强化学习的芯片布局方法。

研究者将芯片布局看作一个强化学习问题,然后训练智能体将芯片网表(netlist)的节点放置在芯片画布(canvas)上。为了使强化学习策略泛化至新的芯片 block,研究者将表征学习置于预测芯片布局质量的监督任务中。通过设计能够在大量网表及其布局上准确预测奖励的神经架构,该研究生成输入网表的丰富特征嵌入。然后利用该架构作为策略和价值网络的编码器,实现迁移学习。

该研究旨在最小化芯片设计的 PPA(功耗、性能和面积)。研究者称,该方法能够在 6 小时内完成芯片布局设计,布局质量超过或匹配人类设计,而现有的基线方法需要人类专家参与,且往往需要数周时间才能完成。

成为VIP会员查看完整内容
0
45

主题: Towards Automatic Machine Learning Pipeline Design

简介: 数据收集量的迅速增加,使决策的瓶颈迅速从缺乏数据转向缺乏数据科学家,以帮助分析收集的数据。此外,用于数据分析的新潜在解决方案和方法的发布速度已经超过了人类数据科学家所能遵循的速度。同时,我们注意到数据科学家在分析过程中执行的许多任务都可以自动化。自动机器学习(AutoML)研究和解决方案试图使部分甚至整个数据分析过程自动化。我们解决了自动化研究中的两个挑战: 首先,如何表示适合元学习的ML程序;第二,如何改进自动系统的评估,使之能够比较各种方法,而不仅仅是预测。为此,我们设计并实现了一个ML程序框架,该框架提供了以标准方式描述ML程序所需的所有组件。该框架是可扩展的,框架的组件之间是解耦的,例如,该框架可以用来描述使用神经网络的ML程序。我们为执行框架中描述的程序提供参考工具。我们还设计并实现了一个服务,一个元学习数据库,它存储由不同的自动化系统生成的执行ML程序的信息。

我们通过测量使用框架与执行直接调用底层库的ML程序的计算开销来评估框架。我们注意到框架的ML程序执行时间比不使用该框架的ML程序慢一个数量级,内存使用量是不使用该框架的ML程序的两倍。 通过比较使用我们的框架的10个不同的AutoML系统,我们展示了我们的框架评估AutoML系统的能力。结果表明,该框架既可以用来描述一组不同的ML程序,又可以用来明确地确定哪个自动化系统生成了最佳的ML程序。在许多情况下,生成的ML程序的性能优于由人类专家编写的ML程序。

成为VIP会员查看完整内容
0
25
小贴士
相关VIP内容
专知会员服务
23+阅读 · 2020年9月25日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
56+阅读 · 2020年9月6日
专知会员服务
127+阅读 · 2020年9月1日
专知会员服务
51+阅读 · 2020年8月27日
专知会员服务
43+阅读 · 2020年8月1日
专知会员服务
104+阅读 · 2020年6月12日
相关论文
Denny Zhou,Mao Ye,Chen Chen,Tianjian Meng,Mingxing Tan,Xiaodan Song,Quoc Le,Qiang Liu,Dale Schuurmans
13+阅读 · 2020年7月1日
Ling Yang,Liangliang Li,Zilun Zhang, Zhou,Erjin Zhou,Yu Liu
10+阅读 · 2020年3月31日
EfficientDet: Scalable and Efficient Object Detection
Mingxing Tan,Ruoming Pang,Quoc V. Le
5+阅读 · 2019年11月20日
Wei-Lin Chiang,Xuanqing Liu,Si Si,Yang Li,Samy Bengio,Cho-Jui Hsieh
9+阅读 · 2019年8月8日
Wenhui Zhang,Tejas Mahale
3+阅读 · 2018年12月13日
GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning
Jacky Liang,Viktor Makoviychuk,Ankur Handa,Nuttapong Chentanez,Miles Macklin,Dieter Fox
4+阅读 · 2018年10月24日
Zero-Shot Object Detection
Ankan Bansal,Karan Sikka,Gaurav Sharma,Rama Chellappa,Ajay Divakaran
8+阅读 · 2018年7月27日
Jack Baker,Paul Fearnhead,Emily B Fox,Christopher Nemeth
3+阅读 · 2018年6月19日
Ruotian Luo,Brian Price,Scott Cohen,Gregory Shakhnarovich
6+阅读 · 2018年3月12日
Top