主题: Hyper-Parameter Optimization: A Review of Algorithms and Applications

摘要: 自深度神经网络发展以来,它们为人们的日常生活做出了巨大的贡献。机器学习在日常生活的方方面面提供了比人类所能提供的更合理的建议。然而,尽管取得了这一成就,神经网络的设计和训练仍然具有挑战性和不可预测的过程,这些过程被称为炼金术。为了降低普通用户的技术门槛,自动化超参数优化(HPO)已成为学术界和工业界的热门话题。本文对高性能氧最基本的课题进行了综述。第一节介绍了与模型训练和结构有关的关键超参数,并讨论了它们的重要性和定义取值范围的方法。然后,重点研究了主要的优化算法及其适用性,包括它们的效率和精度,特别是对于深度学习网络。本研究接下来回顾了HPO的主要服务和工具包,比较了它们对最新搜索算法的支持、与主要深度学习框架的可行性以及用户设计的新模块的可扩展性。本文总结了HPO应用于深度学习中存在的问题,优化算法的比较,以及在计算资源有限的情况下模型评估的突出方法。

成为VIP会员查看完整内容
0
37

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

深度学习在许多领域都取得了重大突破和进展。这是因为深度学习具有强大的自动表示能力。实践证明,网络结构的设计对数据的特征表示和最终的性能至关重要。为了获得良好的数据特征表示,研究人员设计了各种复杂的网络结构。然而,网络架构的设计在很大程度上依赖于研究人员的先验知识和经验。因此,一个自然的想法是尽量减少人为的干预,让算法自动设计网络的架构。因此,这需要更深入到强大的智慧。

近年来,大量相关的神经结构搜索算法(NAS)已经出现。他们对NAS算法进行了各种改进,相关研究工作复杂而丰富。为了减少初学者进行NAS相关研究的难度,对NAS进行全面系统的调查是必不可少的。之前的相关调查开始主要从NAS的基本组成部分: 搜索空间、搜索策略和评估策略对现有工作进行分类。这种分类方法比较直观,但是读者很难把握中间的挑战和标志性作品。因此,在本次调查中,我们提供了一个新的视角:首先概述最早的NAS算法的特点,总结这些早期NAS算法存在的问题,然后为后续的相关研究工作提供解决方案。并对这些作品进行了详细而全面的分析、比较和总结。最后,提出了今后可能的研究方向。

概述

深度学习已经在机器翻译[1-3]、图像识别[4,6,7]和目标检测[8-10]等许多领域展示了强大的学习能力。这主要是因为深度学习对非结构化数据具有强大的自动特征提取功能。深度学习已经将传统的手工设计特征[13,14]转变为自动提取[4,29,30]。这使得研究人员可以专注于神经结构的设计[11,12,19]。但是神经结构的设计很大程度上依赖于研究者的先验知识和经验,这使得初学者很难根据自己的实际需要对网络结构进行合理的修改。此外,人类现有的先验知识和固定的思维范式可能会在一定程度上限制新的网络架构的发现。

因此,神经架构搜索(NAS)应运而生。NAS旨在通过使用有限的计算资源,以尽可能少的人工干预的自动化方式设计具有最佳性能的网络架构。NAS- RL[11]和MetaQNN[12]的工作被认为是NAS的开创性工作。他们使用强化学习(RL)方法得到的网络架构在图像分类任务上达到了SOTA分类精度。说明自动化网络架构设计思想是可行的。随后,大规模演化[15]的工作再次验证了这一想法的可行性,即利用演化学习来获得类似的结果。然而,它们在各自的方法中消耗了数百天的GPU时间,甚至更多的计算资源。如此庞大的计算量对于普通研究者来说几乎是灾难性的。因此,如何减少计算量,加速网络架构的搜索[18-20,48,49,52,84,105]就出现了大量的工作。与NAS的提高搜索效率,NAS也迅速应用领域的目标检测(65、75、111、118),语义分割(63、64、120),对抗学习[53],建筑规模(114、122、124),多目标优化(39、115、125),platform-aware(28日34、103、117),数据增加(121、123)等等。另外,如何在性能和效率之间取得平衡也是需要考虑的问题[116,119]。尽管NAS相关的研究已经非常丰富,但是比较和复制NAS方法仍然很困难[127]。由于不同的NAS方法在搜索空间、超参数技巧等方面存在很多差异,一些工作也致力于为流行的NAS方法提供一个统一的评估平台[78,126]。

随着NAS相关研究的不断深入和快速发展,一些之前被研究者所接受的方法被新的研究证明是不完善的。很快就有了改进的解决方案。例如,早期的NAS在架构搜索阶段从无到有地训练每个候选网络架构,导致计算量激增[11,12]。ENAS[19]提出采用参数共享策略来加快架构搜索的进程。该策略避免了从头训练每个子网,但强制所有子网共享权值,从而大大减少了从大量候选网络中获得性能最佳子网的时间。由于ENAS在搜索效率上的优势,权值共享策略很快得到了大量研究者的认可[23,53,54]。不久,新的研究发现,广泛接受的权重分配策略很可能导致候选架构[24]的排名不准确。这将使NAS难以从大量候选架构中选择最优的网络架构,从而进一步降低最终搜索的网络架构的性能。随后DNA[21]将NAS的大搜索空间模块化成块,充分训练候选架构以减少权值共享带来的表示移位问题。此外,GDAS-NSAS[25]提出了一种基于新的搜索架构选择(NSAS)损失函数来解决超网络训练过程中由于权值共享而导致的多模型遗忘问题。

在快速发展的NAS研究领域中,类似的研究线索十分普遍,基于挑战和解决方案对NAS研究进行全面、系统的调研是非常有用的。以往的相关综述主要根据NAS的基本组成部分: 搜索空间、搜索策略和评估策略对现有工作进行分类[26,27]。这种分类方法比较直观,但不利于读者捕捉研究线索。因此,在本次综述查中,我们将首先总结早期NAS方法的特点和面临的挑战。基于这些挑战,我们对现有研究进行了总结和分类,以便读者能够从挑战和解决方案的角度进行一个全面和系统的概述。最后,我们将比较现有的研究成果,并提出未来可能的研究方向和一些想法。

成为VIP会员查看完整内容
0
67

题目: Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

简介:

在过去的十年中,深度学习证明了计算机视觉和自然语言处理所带来的挑战的最新准确性,从而使这些领域发生了革命性变化。深度学习模型现在是自动驾驶,医学成像和神经机器翻译等应用程序的基本构建块。但是,在生产中部署这些模型时,仍然存在许多挑战。研究人员和从业人员必须解决各种各样的问题,包括如何有效地设计,培训和部署资源密集型深度学习模型,以及如何在确保对变化条件的鲁棒性的同时使这些方法自动化。本文提供并评估了提高深度学习训练和推理效率以及底层系统对环境变化的鲁棒性的新方法。我们通过关注为优化模型的准确性和资源使用而优化的许多超参数来解决这些问题。这些超参数包括模型架构的选择,训练数据集,优化算法,优化算法的超参数(例如学习率和动量)以及训练时间预算。当前,在实践中,几乎所有超参数在训练之前都进行了一次调整,此后保持不变,然而最佳的超参数值会随时间变化(例如,随着训练的进行或替换用于推理的硬件时)。我们将动态调整应用于传统上被认为是静态的超参数。通过三个案例研究,我们表明,使用运行时信息来动态适应传统上静态的超参数可以提高机器学习训练和推理的效率。 首先,我们提出并分析Selective-Backprop,这是一种新的重要采样方法,它以在线方式对高损失示例进行优先排序。在Selective-Backprop中,被认为具有挑战性的示例是可调超参数。通过优先处理这些具有挑战性的示例,Selective-Backprop可以将给定的目标错误率训练到比静态方法快3.5倍的目标。接下来,我们探索AdaptSB,它是Selective-Backprop的变体,可以动态调整我们对具有挑战性的示例进行优先级排序的方式。在“选择性反向传播”中,分配给难度不同示例的优先级保持不变。在AdaptSB中,我们将分配给不同类别示例的优先级视为可调超参数。通过对数据集和训练阶段动态地调整示例优先级,AdaptSB在出现标签错误的数据集上表现优于Selective-Backprop。 最后,我们提出并分析了Mainstream,这是一种视频分析系统,可让并发应用共享共享边缘资源,以最大程度地提高汇总结果质量。在Mainstream中,我们认为应用程序共享的程度是一个可调参数。 Mainstream在部署时使用更专业的DNN自动确定正确的权衡方案,以提高每帧的准确性并保留更多的非专业基础模型。结果显示,与静态ap方法相比,Mainstream将平均事件检测F1分数提高了多达87倍。

成为VIP会员查看完整内容
Improving Deep Learning Training and Inference.pdf
0
36

主题: Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic

摘要: 深度强化学习(DRL)方法在经济学中的应用已成倍增加。 DRL通过从强化学习(RL)和深度学习(DL)的广泛功能来处理复杂的动态业务环境提供了广阔的机遇。 DRL的特点是可伸缩性,它有可能结合经济数据的噪声和非线性模式应用于高维问题。在这项工作中,我们首先考虑对经济学中各种应用中的DL,RL和深层RL方法进行简要回顾,以提供对最新技术水平的深入了解。此外,研究了应用于经济应用的DRL体系结构,以突出其复杂性,鲁棒性,准确性,性能,计算任务,风险约束和获利能力。调查结果表明,与传统算法相比,DRL可以提供更好的性能和更高的精度,同时在存在风险参数和不确定性不断增加的情况下面临实际的经济问题。

成为VIP会员查看完整内容
0
27

深度神经网络的发展,为人们的日常生活产生了巨大的影响。机器学习几乎在日常生活的每一个方面都提供了比人类更合理的建议。然而,尽管取得了这些成就,神经网络的设计和训练仍然是具有挑战性和不可预测的过程。为了降低普通用户的技术门槛,自动化超参数优化(HPO)已成为学术界和工业界的热门话题。本文对HPO中最基本的主题进行了综述。第一部分介绍了与模型训练和结构相关的关键超参数,并讨论了它们的重要性和定义值范围的方法。然后,研究了主要的优化算法及其适用性,包括它们的效率和准确性,特别是对于深度学习网络。本研究接下来将回顾HPO的主要服务和工具包,比较它们对最先进的搜索算法的支持、与主要深度学习框架的可行性以及用户设计的新模块的可扩展性。本文总结了HPO在深度学习中存在的问题,优化算法的比较,以及在计算资源有限的情况下进行模型评估的突出方法。

成为VIP会员查看完整内容
0
39

Since deep neural networks were developed, they have made huge contributions to everyday lives. Machine learning provides more rational advice than humans are capable of in almost every aspect of daily life. However, despite this achievement, the design and training of neural networks are still challenging and unpredictable procedures. To lower the technical thresholds for common users, automated hyper-parameter optimization (HPO) has become a popular topic in both academic and industrial areas. This paper provides a review of the most essential topics on HPO. The first section introduces the key hyper-parameters related to model training and structure, and discusses their importance and methods to define the value range. Then, the research focuses on major optimization algorithms and their applicability, covering their efficiency and accuracy especially for deep learning networks. This study next reviews major services and toolkits for HPO, comparing their support for state-of-the-art searching algorithms, feasibility with major deep learning frameworks, and extensibility for new modules designed by users. The paper concludes with problems that exist when HPO is applied to deep learning, a comparison between optimization algorithms, and prominent approaches for model evaluation with limited computational resources.

0
12
下载
预览

题目: Optimization for deep learning: theory and algorithms

摘要:

什么时候以及为什么能够成功地训练神经网络?本文概述了神经网络的优化算法和训练理论。首先,我们讨论了梯度爆炸、消失问题,然后讨论了实际的解决方案,包括初始化和归一化方法。其次,我们回顾了用于训练神经网络的一般优化方法,如SGD、自适应梯度方法和分布式方法以及这些算法的理论结果。第三,我们回顾了现有的关于神经网络训练的全局问题的研究,包括局部极值的结果、模式连接、无限宽度分析。

作者:

Ruoyu Sun是伊利诺伊大学厄本那香槟分校 (UIUC)电子与计算机工程系的助理教授,研究优化和机器学习,尤其是深度学习。最近,一直在研究深度学习中的最优化,例如神经网络,GANs和Adam。

摘要

什么时候以及为什么能够成功地训练神经网络?本文概述了神经网络的优化算法和训练理论。首先,我们讨论了梯度爆炸/消失问题和更一般的不期望谱问题,然后讨论了实际的解决方案,包括仔细的初始化和归一化方法。其次,我们回顾了用于训练神经网络的一般优化方法,如SGD、自适应梯度方法和分布式方法,以及这些算法的现有理论结果。第三,我们回顾了现有的关于神经网络训练的全局问题的研究,包括局部极值的结果、模式连接、彩票假设和无限宽度分析。

  1. 概述

本文的一个主要主题是了解成功训练神经网络的实际组成部分,以及可能导致训练失败的因素。假设你在1980年试图用神经网络解决一个图像分类问题。如果你想从头开始训练一个神经网络,很可能你最初的几次尝试都没有得到合理的结果。什么本质的变化使算法能有效进行?在高层次上,你需要三样东西(除了强大的硬件): 合适的神经网络、合适的训练算法和合适的训练技巧。

合适的神经网络。这包括神经结构和激活功能。对于神经结构,您可能想要用一个至少有5层和足够神经元的卷积网络来替换一个完全连接的网络。为了获得更好的性能,您可能希望将深度增加到20甚至100,并添加跳跃skip连接。对于激活函数,一个好的起点是ReLU激活,但是使用tanh或swish激活也是合理的。

训练算法。一个大的选择是使用随机版本的梯度下降(SGD)并坚持它。良好调整的步长足够好,而动量和自适应步长可以提供额外的好处。

训练技巧。适当的初始化对于算法的训练是非常重要的。要训练一个超过10层的网络,通常需要两个额外的技巧:添加规范化层和添加跳过连接。

哪些设计选择是必要的?目前我们已经了解了一些设计选择,包括初始化策略、规范化方法、跳过连接、参数化(大宽度)和SGD,如图1所示。我们将优化优势大致分为三部分: 控制Lipschitz常数、更快的收敛速度和更好的landscape。还有许多其他的设计选择是很难理解的,尤其是神经架构。无论如何,似乎不可能理解这个复杂系统的每个部分,目前的理解已经可以提供一些有用的见解。

图1: 成功训练具有理论理解的神经网络的几个主要设计选择。它们对算法收敛的三个方面有影响:使收敛成为可能、更快的收敛和更好的全局解。这三个方面有一定的联系,只是一个粗略的分类。请注意,还有其他一些重要的设计选择,特别是神经体系结构,它们在理论上还没有被理解,因此在该图中被省略了。还有其他好处,比如泛化,也被忽略了。

为了使综述调查简单,我们将重点研究前馈神经网络的监督学习问题。我们将不讨论更复杂的公式,如GANs(生成对抗网络)和深度强化学习,也不讨论更复杂的体系结构,如RNN(递归神经网络)、attention和Capsule。在更广泛的背景下,监督学习理论至少包含表示、优化和泛化(参见1.1节),我们不详细讨论表示和泛化。一个主要的目标是理解神经网络结构(由许多变量连接的参数化)如何影响优化算法的设计和分析,这可能会超越监督学习。

这篇文章是为那些对神经网络优化的理论理解感兴趣的研究人员写的。关于优化方法和基础理论的先验知识将非常有帮助(参见,[24,200,29]的准备)。现有的关于深度学习优化的调查主要针对一般的机器学习受众,如Goodfellow等[76]的第8章。这些综述通常不深入讨论优化的理论方面。相反,在这篇文章中,我们更多地强调理论结果,同时努力使它对非理论读者具有可访问性。如果可能的话,我们将提供一些简单的例子来说明这种直觉,我们将不解释定理的细节。

1.1 大景观:分解理论

分解是发展理论的一个有用且流行的元方法。首先简要回顾了优化在机器学习中的作用,然后讨论了如何分解深度学习的优化理论。

表示、优化和泛化。监督学习的目标是根据观察到的样本找到一个近似底层函数的函数。第一步是找到一个丰富的函数家族(如神经网络),可以代表理想的函数。第二步是通过最小化某个损失函数来识别函数的参数。第三步是使用第二步中找到的函数对不可见的测试数据进行预测,产生的错误称为测试错误。测试误差可以分解为表示误差、优化误差和泛化误差,分别对应这三个步骤引起的误差。

在机器学习中,表示、优化和泛化这三个学科经常被分开研究。例如,在研究一类函数的表示能力时,我们往往不关心优化问题能否很好地解决。在研究泛化误差时,我们通常假设已经找到了全局最优值(概化调查见[95])。类似地,在研究优化属性时,我们通常不明确地考虑泛化误差(但有时我们假定表示误差为零)。

优化问题的分解。深度学习的优化问题比较复杂,需要进一步分解。优化的发展可以分为三个步骤。第一步是使算法开始运行,并收敛到一个合理的解,如一个固定点。第二步是使算法尽快收敛。第三步是确保算法收敛到一个低目标值的解(如全局极小值)。要获得良好的测试精度,还有一个额外的步骤,但是这超出了优化的范围。简而言之,我们将优化问题分为三个部分: 收敛性、收敛速度和全局质量。

大部分工作的回顾分为三个部分: 第四部分,第五部分和第六部分。大致说来,每个部分主要是由优化理论的三个部分之一。然而,这种划分并不精确,因为这三个部分之间的边界是模糊的。例如,第4节中讨论的一些技术也可以提高收敛速度,第6节中的一些结果解决了收敛问题和全局问题。划分的另一个原因是它们代表了神经网络优化的三个相当独立的子领域,并且在一定程度上是独立发展的。

1.2 文章结构

这篇文章的结构如下。在第二节中,我们提出了一个典型的监督学习神经网络优化问题。在第三节中,我们提出了反向传播(BP),并分析了将经典收敛分析应用于神经网络梯度下降的困难。在第四节中,我们将讨论训练神经网络的神经网络特定技巧,以及一些基本理论。这些是神经网络相关的方法,打开了神经网络的黑盒子。特别地,我们讨论了一个主要的挑战,称为梯度爆炸/消失和一个更普遍的挑战,控制频谱,并回顾了主要的解决方案,如仔细的初始化和归一化方法。在第五节中,我们讨论了将神经网络视为一般非凸优化问题的泛型算法设计。特别地,我们回顾了SGD的各种学习速率调度、自适应梯度方法、大规模分布式训练、二阶方法以及现有的收敛和迭代复杂度结果。在第六节中,我们回顾了神经网络的全局优化研究,包括全局景观、模式连接、彩票假设和无限宽度分析(如神经正切核)。

更多请下载论文查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

后台回复“

成为VIP会员查看完整内容
0
81

论文题目: Imbalance Problems in Object Detection: A Review

论文摘要: 在本文中,我们对物体检测中的不平衡问题进行了全面回顾。 为了系统地分析问题,我们引入了两种分类法; 一个解决问题,另一个解决方案。 按照问题的分类法,我们深入讨论每个问题,并对文献中的解决方案提出一个统一而又批判性的观点。 此外,我们确定了有关现有不平衡问题以及以前未讨论过的不平衡问题的主要开放问题。 此外,为了使我们的评论保持最新,我们提供了一个随附的网页。

成为VIP会员查看完整内容
0
31

AutoML: A Survey of the State-of-the-Art

深度学习已经渗透到我们生活的方方面面,给我们带来了极大的便利。然而,针对某一特定任务构建高质量的深度学习系统的过程不仅耗时,而且需要大量的资源和人力,阻碍了深度学习在产业界和学术界的发展。为了缓解这一问题,越来越多的研究项目关注于自动化机器学习(AutoML)。在本文中,我们提供了一个全面的和最新的研究,在最先进的汽车。首先,根据机器学习的特点,详细介绍了自动化技术。在此基础上,总结了神经结构搜索(NAS)的研究现状,这是目前自动化领域研究的热点之一。我们还将NAS算法生成的模型与人工设计的模型进行了比较。最后,提出了有待进一步研究的几个问题。

成为VIP会员查看完整内容
0
64

We present a traffic simulation named DeepTraffic where the planning systems for a subset of the vehicles are handled by a neural network as part of a model-free, off-policy reinforcement learning process. The primary goal of DeepTraffic is to make the hands-on study of deep reinforcement learning accessible to thousands of students, educators, and researchers in order to inspire and fuel the exploration and evaluation of deep Q-learning network variants and hyperparameter configurations through large-scale, open competition. This paper investigates the crowd-sourced hyperparameter tuning of the policy network that resulted from the first iteration of the DeepTraffic competition where thousands of participants actively searched through the hyperparameter space.

0
4
下载
预览
小贴士
相关VIP内容
自动机器学习:最新进展综述
专知会员服务
64+阅读 · 2019年10月13日
深度神经网络模型压缩与加速综述
专知会员服务
68+阅读 · 2019年10月12日
相关资讯
【综述】自动机器学习AutoML最新65页综述,带你了解最新进展
中国人工智能学会
46+阅读 · 2019年5月3日
介绍高维超参数调整 - 优化ML模型的最佳实践
AI研习社
4+阅读 · 2019年4月17日
图神经网络综述:方法及应用 | Deep Reading
AI100
30+阅读 · 2019年3月17日
算法优化|梯度下降和随机梯度下降 — 从0开始
全球人工智能
3+阅读 · 2017年12月25日
CNN模型压缩与加速算法综述
微信AI
3+阅读 · 2017年10月11日
CNN 模型压缩与加速算法综述
机器学习研究会
10+阅读 · 2017年8月25日
相关论文
Hyper-Parameter Optimization: A Review of Algorithms and Applications
Tong Yu,Hong Zhu
12+阅读 · 2020年3月12日
Optimization for deep learning: theory and algorithms
Ruoyu Sun
78+阅读 · 2019年12月19日
Kamran Kowsari,Kiana Jafari Meimandi,Mojtaba Heidarysafa,Sanjana Mendu,Laura E. Barnes,Donald E. Brown
3+阅读 · 2019年4月25日
H. Ismail Fawaz,G. Forestier,J. Weber,L. Idoumghar,P. Muller
8+阅读 · 2019年3月14日
Tuomas Haarnoja,Aurick Zhou,Sehoon Ha,Jie Tan,George Tucker,Sergey Levine
4+阅读 · 2018年12月26日
Benjamin Recht
5+阅读 · 2018年6月25日
Seyed Sajad Mousavi,Michael Schukat,Enda Howley
12+阅读 · 2018年6月23日
Ferdinando Fioretto,Enrico Pontelli,William Yeoh
4+阅读 · 2018年1月11日
Top