神经网络在诸多应用领域展现了巨大的潜力,成为当前最热门的研究方向之一。神经网络的训练主要通过求解一个优化问题来完成,但这是一个困难的非线性优化问题,传统的优化理论难以直接应用。在神经网络和优化的交叉领域,长期以来研究人员积累了大量的理论研究知识,不过这些研究或过于理论而不被大部分实践者所了解,或过于偏工程而不被理论学者所理解和欣赏。本文的目的是总结目前对于神经网络优化基本理论和算法的现状,架起理论和实践、优化和机器学习界之间的桥梁。

对苦于调参常感到困惑的工程师而言,本文可以提供一些已有的理论理解以供参考,并提供一些思考的方式。对理论学者而言,本文力图解释其作为数学问题的困难之所在以及目前的理论进展,以期吸引更多研究者投身神经网络优化理论和算法研究。

本文概述了神经网络的算法和优化理论。首先,我们讨论梯度爆炸/消失问题和更一般的谱控制问题,然后讨论实际中常用的解决方案,包括初始化方法和归一化方法。其次,我们回顾用于训练神经网络的一般优化方法,如SGD、自适应梯度方法和大规模分布式训练方法,以及这些算法的现有理论结果。第三,我们回顾了最近关于神经网络训练的全局问题的研究,包括局部极值、模式连接、彩票假设和无限宽度分析等方面的结果。

成为VIP会员查看完整内容
1
42

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

视频中的异常检测是一个研究了十多年的问题。这一领域因其广泛的适用性而引起了研究者的兴趣。正因为如此,多年来出现了一系列广泛的方法,这些方法从基于统计的方法到基于机器学习的方法。在这一领域已经进行了大量的综述,但本文着重介绍了使用深度学习进行异常检测领域的最新进展。深度学习已成功应用于人工智能的许多领域,如计算机视觉、自然语言处理等。然而,这项调查关注的是深度学习是如何改进的,并为视频异常检测领域提供了更多的见解。本文针对不同的深度学习方法提供了一个分类。此外,还讨论了常用的数据集以及常用的评价指标。然后,对最近的研究方法进行了综合讨论,以提供未来研究的方向和可能的领域。

https://arxiv.org/abs/2009.14146

成为VIP会员查看完整内容
0
35

深度学习算法已经在图像分类方面取得了最先进的性能,甚至被用于安全关键应用,如生物识别系统和自动驾驶汽车。最近的研究表明,这些算法甚至可以超越人类的能力,很容易受到对抗性例子的攻击。在计算机视觉中,与之相对的例子是恶意优化算法为欺骗分类器而产生的含有细微扰动的图像。为了缓解这些漏洞,文献中不断提出了许多对策。然而,设计一种有效的防御机制已被证明是一项困难的任务,因为许多方法已经证明对自适应攻击者无效。因此,这篇自包含的论文旨在为所有的读者提供一篇关于图像分类中对抗性机器学习的最新研究进展的综述。本文介绍了新的对抗性攻击和防御的分类方法,并讨论了对抗性实例的存在性。此外,与现有的调查相比,它还提供了相关的指导,研究人员在设计和评估防御时应该考虑到这些指导。最后,在文献综述的基础上,对未来的研究方向进行了展望。

https://www.zhuanzhi.ai/paper/396e587564dc2922d222cd3ac7b84288

成为VIP会员查看完整内容
0
38

【导读】本文章从深度神经网络(DNN)入手,对深度学习(DL)领域的研究进展进行了简要的综述。内容包括:卷积神经网络(CNN)、循环神经网络(RNN)、长时记忆(LSTM)和门控递归单元(GRU)、自动编码器(AE)、深度信念网络(DBN)、生成对抗性网络(GAN)和深度强化学习(DRL)。

近年来,深度学习在各个应用领域都取得了巨大的成功。这个机器学习的新领域发展迅速,已经应用于大多数传统的应用领域,以及一些提供更多机会的新领域。针对不同类型的学习,提出了不同的学习方法,包括监督学习、半监督学习和非监督学习。

实验结果表明,与传统机器学习方法相比,深度学习在图像处理、计算机视觉、语音识别、机器翻译、艺术、医学成像、医学信息处理、机器人与控制、生物信息学、自然语言处理、网络安全等领域具有最先进的性能。

本研究从深度神经网络(DNN)入手,对深度学习(DL)领域的研究进展进行了简要的综述。研究内容包括:卷积神经网络(CNN)、循环神经网络(RNN)、长时记忆(LSTM)和门控递归单元(GRU)、自动编码器(AE)、深度信念网络(DBN)、生成对抗性网络(GAN)和深度强化学习(DRL)。

此外,我们还讨论了最近的发展,例如基于这些DL方法的高级变体DL技术。这项工作考虑了2012年以后发表的大部分论文,当时深度学习的历史开始了。此外,本文中还包括了在不同应用领域探索和评价的DL方法。我们还包括最近开发的框架、SDKs和基准数据集,用于实施和评估深度学习方法。目前有一些研究已经发表,例如使用神经网络和一个关于强化学习(RL)的综述。然而,这些论文还没有讨论大规模深度学习模型的个别高级训练技术和最近发展起来的生成模型的方法。

关键词:卷积神经网络(CNN);循环神经网络(RNN);自动编码器(AE);受限Boltzmann机器(RBM);深度信念网络(DBN);生成对抗性网络(GAN);深度强化学习(DRL);迁移学习。

成为VIP会员查看完整内容
0
58

目标检测的任务是从图像中精确且高效地识别、定位出大量预定义类别的物体实例。随着深度学习的广泛应用,目标检测的精确度和效率都得到了较大提升,但基于深度学习的目标检测仍面临改进与优化主流目标检测算法的性能、提高小目标物体检测精度、实现多类别物体检测、轻量化检测模型等关键技术的挑战。针对上述挑战,本文在广泛文献调研的基础上,从双阶段、单阶段目标检测算法的改进与结合的角度分析了改进与优化主流目标检测算法的方法,从骨干网络、增加视觉感受野、特征融合、级联卷积神经网络和模型的训练方式的角度分析了提升小目标检测精度的方法,从训练方式和网络结构的角度分析了用于多类别物体检测的方法,从网络结构的角度分析了用于轻量化检测模型的方法。此外,对目标检测的通用数据集进行了详细介绍,从4个方面对该领域代表性算法的性能表现进行了对比分析,对目标检测中待解决的问题与未来研究方向做出预测和展望。目标检测研究是计算机视觉和模式识别中备受青睐的热点,仍然有更多高精度和高效的算法相继提出,未来将朝着更多的研究方向发展。

成为VIP会员查看完整内容
0
80

随着web技术的发展,多模态或多视图数据已经成为大数据的主要流,每个模态/视图编码数据对象的单个属性。不同的模态往往是相辅相成的。这就引起了人们对融合多模态特征空间来综合表征数据对象的研究。大多数现有的先进技术集中于如何融合来自多模态空间的能量或信息,以提供比单一模态的同行更优越的性能。最近,深度神经网络展示了一种强大的架构,可以很好地捕捉高维多媒体数据的非线性分布,对多模态数据自然也是如此。大量的实证研究证明了深多模态方法的优势,从本质上深化了多模态深特征空间的融合。在这篇文章中,我们提供了从浅到深空间的多模态数据分析领域的现有状态的实质性概述。在整个调查过程中,我们进一步指出,该领域的关键要素是多模式空间的协作、对抗性竞争和融合。最后,我们就这一领域未来的一些方向分享我们的观点。

成为VIP会员查看完整内容
0
124

由于计算和存储效率的提高,哈希被广泛应用于大规模数据库检索中的近似近邻搜索。深度哈希技术是一种利用卷积神经网络结构来挖掘和提取图像语义信息或特征的技术,近年来受到越来越多的关注。在这个综述中,我们对几种图像检索的深度监督哈希方法进行了评估,总结出深度监督哈希方法的三个主要不同方向。最后提出了几点意见。此外,为了突破现有哈希方法的瓶颈,我提出了一种影子周期性哈希(SRH)方法作为尝试。具体来说,我设计了一个CNN架构来提取图像的语义特征,并设计了一个loss function来鼓励相似的图像投影接近。为此,我提出了一个概念: CNN输出的影子。在优化的过程中,CNN的输出和它的shadow互相引导,尽可能的达到最优解。在数据集CIFAR-10上的实验表明,该算法具有良好的性能。

https://arxiv.org/abs/2006.05627

成为VIP会员查看完整内容
0
26

本文介绍了一阶优化方法及其在机器学习中的应用。这不是一门关于机器学习的课程(特别是它不涉及建模和统计方面的考虑),它侧重于使用和分析可以扩展到具有大量参数的大型数据集和模型的廉价方法。这些方法都是围绕“梯度下降”的概念而变化的,因此梯度的计算起着主要的作用。本课程包括最优化问题的基本理论性质(特别是凸分析和一阶微分学)、梯度下降法、随机梯度法、自动微分、浅层和深层网络。

成为VIP会员查看完整内容
0
73

题目: Optimization for deep learning: theory and algorithms

摘要:

什么时候以及为什么能够成功地训练神经网络?本文概述了神经网络的优化算法和训练理论。首先,我们讨论了梯度爆炸、消失问题,然后讨论了实际的解决方案,包括初始化和归一化方法。其次,我们回顾了用于训练神经网络的一般优化方法,如SGD、自适应梯度方法和分布式方法以及这些算法的理论结果。第三,我们回顾了现有的关于神经网络训练的全局问题的研究,包括局部极值的结果、模式连接、无限宽度分析。

作者:

Ruoyu Sun是伊利诺伊大学厄本那香槟分校 (UIUC)电子与计算机工程系的助理教授,研究优化和机器学习,尤其是深度学习。最近,一直在研究深度学习中的最优化,例如神经网络,GANs和Adam。

摘要

什么时候以及为什么能够成功地训练神经网络?本文概述了神经网络的优化算法和训练理论。首先,我们讨论了梯度爆炸/消失问题和更一般的不期望谱问题,然后讨论了实际的解决方案,包括仔细的初始化和归一化方法。其次,我们回顾了用于训练神经网络的一般优化方法,如SGD、自适应梯度方法和分布式方法,以及这些算法的现有理论结果。第三,我们回顾了现有的关于神经网络训练的全局问题的研究,包括局部极值的结果、模式连接、彩票假设和无限宽度分析。

  1. 概述

本文的一个主要主题是了解成功训练神经网络的实际组成部分,以及可能导致训练失败的因素。假设你在1980年试图用神经网络解决一个图像分类问题。如果你想从头开始训练一个神经网络,很可能你最初的几次尝试都没有得到合理的结果。什么本质的变化使算法能有效进行?在高层次上,你需要三样东西(除了强大的硬件): 合适的神经网络、合适的训练算法和合适的训练技巧。

合适的神经网络。这包括神经结构和激活功能。对于神经结构,您可能想要用一个至少有5层和足够神经元的卷积网络来替换一个完全连接的网络。为了获得更好的性能,您可能希望将深度增加到20甚至100,并添加跳跃skip连接。对于激活函数,一个好的起点是ReLU激活,但是使用tanh或swish激活也是合理的。

训练算法。一个大的选择是使用随机版本的梯度下降(SGD)并坚持它。良好调整的步长足够好,而动量和自适应步长可以提供额外的好处。

训练技巧。适当的初始化对于算法的训练是非常重要的。要训练一个超过10层的网络,通常需要两个额外的技巧:添加规范化层和添加跳过连接。

哪些设计选择是必要的?目前我们已经了解了一些设计选择,包括初始化策略、规范化方法、跳过连接、参数化(大宽度)和SGD,如图1所示。我们将优化优势大致分为三部分: 控制Lipschitz常数、更快的收敛速度和更好的landscape。还有许多其他的设计选择是很难理解的,尤其是神经架构。无论如何,似乎不可能理解这个复杂系统的每个部分,目前的理解已经可以提供一些有用的见解。

图1: 成功训练具有理论理解的神经网络的几个主要设计选择。它们对算法收敛的三个方面有影响:使收敛成为可能、更快的收敛和更好的全局解。这三个方面有一定的联系,只是一个粗略的分类。请注意,还有其他一些重要的设计选择,特别是神经体系结构,它们在理论上还没有被理解,因此在该图中被省略了。还有其他好处,比如泛化,也被忽略了。

为了使综述调查简单,我们将重点研究前馈神经网络的监督学习问题。我们将不讨论更复杂的公式,如GANs(生成对抗网络)和深度强化学习,也不讨论更复杂的体系结构,如RNN(递归神经网络)、attention和Capsule。在更广泛的背景下,监督学习理论至少包含表示、优化和泛化(参见1.1节),我们不详细讨论表示和泛化。一个主要的目标是理解神经网络结构(由许多变量连接的参数化)如何影响优化算法的设计和分析,这可能会超越监督学习。

这篇文章是为那些对神经网络优化的理论理解感兴趣的研究人员写的。关于优化方法和基础理论的先验知识将非常有帮助(参见,[24,200,29]的准备)。现有的关于深度学习优化的调查主要针对一般的机器学习受众,如Goodfellow等[76]的第8章。这些综述通常不深入讨论优化的理论方面。相反,在这篇文章中,我们更多地强调理论结果,同时努力使它对非理论读者具有可访问性。如果可能的话,我们将提供一些简单的例子来说明这种直觉,我们将不解释定理的细节。

1.1 大景观:分解理论

分解是发展理论的一个有用且流行的元方法。首先简要回顾了优化在机器学习中的作用,然后讨论了如何分解深度学习的优化理论。

表示、优化和泛化。监督学习的目标是根据观察到的样本找到一个近似底层函数的函数。第一步是找到一个丰富的函数家族(如神经网络),可以代表理想的函数。第二步是通过最小化某个损失函数来识别函数的参数。第三步是使用第二步中找到的函数对不可见的测试数据进行预测,产生的错误称为测试错误。测试误差可以分解为表示误差、优化误差和泛化误差,分别对应这三个步骤引起的误差。

在机器学习中,表示、优化和泛化这三个学科经常被分开研究。例如,在研究一类函数的表示能力时,我们往往不关心优化问题能否很好地解决。在研究泛化误差时,我们通常假设已经找到了全局最优值(概化调查见[95])。类似地,在研究优化属性时,我们通常不明确地考虑泛化误差(但有时我们假定表示误差为零)。

优化问题的分解。深度学习的优化问题比较复杂,需要进一步分解。优化的发展可以分为三个步骤。第一步是使算法开始运行,并收敛到一个合理的解,如一个固定点。第二步是使算法尽快收敛。第三步是确保算法收敛到一个低目标值的解(如全局极小值)。要获得良好的测试精度,还有一个额外的步骤,但是这超出了优化的范围。简而言之,我们将优化问题分为三个部分: 收敛性、收敛速度和全局质量。

大部分工作的回顾分为三个部分: 第四部分,第五部分和第六部分。大致说来,每个部分主要是由优化理论的三个部分之一。然而,这种划分并不精确,因为这三个部分之间的边界是模糊的。例如,第4节中讨论的一些技术也可以提高收敛速度,第6节中的一些结果解决了收敛问题和全局问题。划分的另一个原因是它们代表了神经网络优化的三个相当独立的子领域,并且在一定程度上是独立发展的。

1.2 文章结构

这篇文章的结构如下。在第二节中,我们提出了一个典型的监督学习神经网络优化问题。在第三节中,我们提出了反向传播(BP),并分析了将经典收敛分析应用于神经网络梯度下降的困难。在第四节中,我们将讨论训练神经网络的神经网络特定技巧,以及一些基本理论。这些是神经网络相关的方法,打开了神经网络的黑盒子。特别地,我们讨论了一个主要的挑战,称为梯度爆炸/消失和一个更普遍的挑战,控制频谱,并回顾了主要的解决方案,如仔细的初始化和归一化方法。在第五节中,我们讨论了将神经网络视为一般非凸优化问题的泛型算法设计。特别地,我们回顾了SGD的各种学习速率调度、自适应梯度方法、大规模分布式训练、二阶方法以及现有的收敛和迭代复杂度结果。在第六节中,我们回顾了神经网络的全局优化研究,包括全局景观、模式连接、彩票假设和无限宽度分析(如神经正切核)。

更多请下载论文查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

后台回复“

成为VIP会员查看完整内容
0
75
小贴士
相关VIP内容
专知会员服务
35+阅读 · 2020年9月30日
专知会员服务
38+阅读 · 2020年9月10日
专知会员服务
80+阅读 · 2020年8月1日
专知会员服务
124+阅读 · 2020年6月16日
专知会员服务
26+阅读 · 2020年6月14日
相关资讯
深度学习与医学图像分析
人工智能前沿讲习班
18+阅读 · 2019年6月8日
2018年深度学习优化算法最新综述
计算机视觉战队
9+阅读 · 2018年12月11日
从0到1,这篇深度学习综述送给你!
机器学习算法与Python学习
18+阅读 · 2018年6月13日
深度学习中的五大正则化方法和七大优化策略
全球人工智能
9+阅读 · 2017年12月25日
2017年深度学习优化算法最新综述
计算机视觉战队
5+阅读 · 2017年12月18日
干货 | 深度学习之CNN反向传播算法详解
机器学习算法与Python学习
13+阅读 · 2017年11月21日
相关论文
A Survey on The Expressive Power of Graph Neural Networks
Ryoma Sato
4+阅读 · 2020年3月9日
Meta-Learning with Implicit Gradients
Aravind Rajeswaran,Chelsea Finn,Sham Kakade,Sergey Levine
7+阅读 · 2019年9月10日
Learning to Learn and Predict: A Meta-Learning Approach for Multi-Label Classification
Jiawei Wu,Wenhan Xiong,William Yang Wang
14+阅读 · 2019年9月9日
Capsule Networks against Medical Imaging Data Challenges
Amelia Jiménez-Sánchez,Shadi Albarqouni,Diana Mateus
3+阅读 · 2018年7月19日
Lin Yang,Yizhe Zhang,Zhuo Zhao,Hao Zheng,Peixian Liang,Michael T. C. Ying,Anil T. Ahuja,Danny Z. Chen
4+阅读 · 2018年6月2日
Assia Benbihi,Matthieu Geist,Cédric Pradalier
9+阅读 · 2018年5月10日
Babak Hosseini,Barbara Hammer
3+阅读 · 2018年5月2日
Jikai Chen,Hanjiang Lai,Libing Geng,Yan Pan
7+阅读 · 2018年4月17日
Christian Rupprecht,Iro Laina,Nassir Navab,Gregory D. Hager,Federico Tombari
4+阅读 · 2018年3月30日
Top