一周精品论文分享-0325

2018 年 3 月 28 日 深度学习与NLP lqfarmer

    分享几篇最近阅读的论文。经常会有人问我,为什么简单粗暴的模型平均(Model Average)方法会比单机或单卡的方法取得更好的泛化效果呢?下面这篇文章很好的解释了这个问题。

 

Averaging Weights Leads to Wider Optima and Better Generalization

    摘要:深度神经网络通常通过采用带衰减学习率的随机梯度下降法(SGD)来最大或最小化模型的损失函数,以此来优化模型参数。结果表明,当学习率为常值或循环变化时,简单平均SGD寻优轨迹上的多个点,比常规训练取得更好的泛化能力。我们还表明,这种随机加权平均(Stochastic Weight Averaging, SWA )方法比SGD方法具有更宽的优化范围(broader optima),并且与最近提出的单模型Fast Geometric Ensembling( FGE )方法近似。使用SWA,我们在CIFAR - 10、CIFAR - 100和ImageNet上的一系列最优的Residual Network、PyramidNets、DenseNets和Shake-Shake network上的测试精度比常规SGD训练有显著提高。总之,SWA非常容易实现,明显提高了泛化能力,并且几乎没有计算开销。


A Survey of Deep Learning Techniques for Mobile Robot Applications

    摘要:近年来,深度学习的发展吸引了人们对深度人工神经网络如何应用于机器人系统的研究。本综述将对当前的研究成果进行总结,重点介绍移动机器人在深度学习方面取得的成果和存在的问题。

 

Attention on Attention: Architectures for Visual Question Answering (VQA)

    摘要:视觉问答(Visual Question Answering, VQA )是深度学习研究领域中一个越来越热门的话题,需要将自然语言处理和计算机视觉技术协调成一个统一的体系结构。通过开发13种新的注意机制并引入一个简化的分类器,我们构建了一个用于解决VQA问题的第一个深度学习模型。我们进行了300个GPU小时的大规模超参数和体系结构搜索,取得了64.78 %的评估分数,优于现有最先进的单模型63.15 %的验证分数。

 

Gradient Descent Quantizes ReLU Network Features

    摘要:深度神经网络通常在过参数化(Over-parametrized)的状态下训练时(即,训练样本个数少于参数个数),为什么训练收敛于一个泛化的解仍然是一个亟待解决的问题。一些研究结果指出,在训练过程,小批量随机梯度下降( SGD )容易导致参数寻优收敛于具有特定性质的局部最优值。然而,即使在采用二维的平面梯度下降( GD )的情况下,在过参数化区域(over-parametrized regime)中寻优得到解也相当好,并且这种现象很难理解。
本文假设采用很小初始值和学习率,分析具有ReLU激活函数的前馈网络的这种行为,揭示了一种量化效应:权值向量趋于收敛于由输入数据确定的少量方向上。结果表明,对于给定的输入数据,可以获得的“简单”函数数量很有限,与网络规模无关。这使得这些函数类似于线性插值(对于给定的输入数据,存在有限数量的triangulation,每个triangulation通过线性插值来确定函数)。我们也在思考是否这种类比可以扩展到一般性质,虽然通常与分布无关的泛化性质不成立,但是对于例如具有有界二阶导数的平滑函数,近似性质(Approximation property)成立,其可以“解释”网络(无界大小)到不可见输入的泛化。


Group Normalization

    摘要:Batch Normalization( BN )是深度学习发展中的一项里程碑似的技术,使各种网络能够快速进行训练。然而,根据Batch的大小进行归一化也引入了一些问题,即当Batch Size变小时,由于不准确的batch sampling导致BN的估计误差迅速增大。这限制了BN用于训练较大模型和将特征转移到计算机视觉任务(包括检测、分割和视频)的使用,这些任务由于受内存大小的限制,智能使用较小的batch size。本文提出了一种简单的Group Normalization(GN),可以看做BN的简单的变体。GN将channels分成组,并在每个组内计算归一化的均值和方差。GN的计算与batch size无关,在大批量范围内精度稳定。在ImageNet训练的ResNet-50上,当Batch size为2时,GN的误差比BN低10.6 %;当使用典型batch size时,GN与BN的性能相当好,并且优于其他Normalization的方法。此外,GN可以自然地从预训练转移到微调。GN在COCO比赛的目标检测和分割以及动力学视频分类方面均优于基于BN的同类算法,表明GN能够有效地替代BN。GN在现有的深度学习库中只需几行代码就可以实现。

往期精彩内容推荐

人工智能与机器学习技术在医疗保健行业中的应用

前沿分享-基于区块链技术的机器学习行业概述

<纯干货-4> 加州伯克利大学2017年最新深度强化学习视频课程_part1

<深度学习优化策略-4> 基于Gate Mechanism的激活单元GTU、GLU

<纯干货-3>Deep Mind Reinforcement learning course Lecture 1_2

<模型汇总_9> 深度学习网络的表达方式汇总及模型分类方法

<模型汇总-6>堆叠自动编码器Stacked_AutoEncoder-SAE

GAN合集论文下载地址

<深度学习优化策略-1>Batch Normalization(BN)

<模型汇总-9> VAE基础:LVM、MAP、EM、MCMC、Variational Inference(VI)

<教材推荐> PRML_模式识别与机器学习

扫描下方二维码可以订阅哦!

DeepLearning_NLP

深度学习与NLP

       商务合作请联系微信号:lqfarmerlq

登录查看更多
3

相关内容

最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
156+阅读 · 2020年6月14日
元学习(meta learning) 最新进展综述论文
专知会员服务
275+阅读 · 2020年5月8日
BERT技术体系综述论文:40项分析探究BERT如何work
专知会员服务
137+阅读 · 2020年3月1日
近期必读的6篇AI顶会WWW2020【推荐系统】相关论文
专知会员服务
56+阅读 · 2020年2月25日
专知会员服务
85+阅读 · 2020年1月20日
必读的7篇IJCAI 2019【图神经网络(GNN)】相关论文-Part2
专知会员服务
58+阅读 · 2020年1月10日
六篇 CIKM 2019 必读的【图神经网络(GNN)】长文论文
专知会员服务
37+阅读 · 2019年11月3日
深度学习算法与架构回顾
专知会员服务
77+阅读 · 2019年10月20日
元学习(Meta-Learning) 综述及五篇顶会论文推荐
<论文分享> NLP领域最新论文分享-1123
深度学习与NLP
9+阅读 · 2018年11月23日
(免费精品课程分享)-PyTorch深度学习实战
深度学习与NLP
18+阅读 · 2018年10月28日
近期有哪些值得读的QA论文?| 专题论文解读
PaperWeekly
4+阅读 · 2018年6月5日
(精品干货)ACL 2018最新论文归类(最全最细)分享
深度学习与NLP
19+阅读 · 2018年5月14日
千万不要错过!ICLR-2018精品论文解析
深度学习与NLP
8+阅读 · 2018年3月7日
论文 | 2017CIKM - 迁移学习专题论文分享
蚂蚁程序猿
5+阅读 · 2017年12月21日
论文笔记:PTAV
统计学习与视觉计算组
3+阅读 · 2017年9月23日
ICML17 Seq2Seqtutorial精品资料分享
深度学习与NLP
5+阅读 · 2017年8月10日
Learning to See Through Obstructions
Arxiv
7+阅读 · 2020年4月2日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
相关VIP内容
最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
156+阅读 · 2020年6月14日
元学习(meta learning) 最新进展综述论文
专知会员服务
275+阅读 · 2020年5月8日
BERT技术体系综述论文:40项分析探究BERT如何work
专知会员服务
137+阅读 · 2020年3月1日
近期必读的6篇AI顶会WWW2020【推荐系统】相关论文
专知会员服务
56+阅读 · 2020年2月25日
专知会员服务
85+阅读 · 2020年1月20日
必读的7篇IJCAI 2019【图神经网络(GNN)】相关论文-Part2
专知会员服务
58+阅读 · 2020年1月10日
六篇 CIKM 2019 必读的【图神经网络(GNN)】长文论文
专知会员服务
37+阅读 · 2019年11月3日
深度学习算法与架构回顾
专知会员服务
77+阅读 · 2019年10月20日
相关资讯
元学习(Meta-Learning) 综述及五篇顶会论文推荐
<论文分享> NLP领域最新论文分享-1123
深度学习与NLP
9+阅读 · 2018年11月23日
(免费精品课程分享)-PyTorch深度学习实战
深度学习与NLP
18+阅读 · 2018年10月28日
近期有哪些值得读的QA论文?| 专题论文解读
PaperWeekly
4+阅读 · 2018年6月5日
(精品干货)ACL 2018最新论文归类(最全最细)分享
深度学习与NLP
19+阅读 · 2018年5月14日
千万不要错过!ICLR-2018精品论文解析
深度学习与NLP
8+阅读 · 2018年3月7日
论文 | 2017CIKM - 迁移学习专题论文分享
蚂蚁程序猿
5+阅读 · 2017年12月21日
论文笔记:PTAV
统计学习与视觉计算组
3+阅读 · 2017年9月23日
ICML17 Seq2Seqtutorial精品资料分享
深度学习与NLP
5+阅读 · 2017年8月10日
Top
微信扫码咨询专知VIP会员