R-Drop：填补Dropout缺陷，简单又有效的正则方法

2021 年 7 月 21 日 微软研究院AI头条

编者按：深度神经网络是深度学习的基础，但其在训练模型时会出现过拟合的问题，而简单易用的 Dropout 正则化技术可以防止这种问题的发生。然而 Dropout 的操作在一定程度上会使得训练后的模型成为一种多个子模型的组合约束。

基于此，微软亚洲研究院与苏州大学提出了更加简单有效的正则方法 R-Drop（Regularized Dropout）。实验表明，R-Drop 在5个常用的包含 NLP（自然语言处理）和 CV（计算机视觉）的任务中都取得了当前最优的结果。本文将介绍 R-Drop 的实施方法、作用与效果，让大家一窥 R-Drop 的玄机。

深度神经网络（DNN）近来已经在各个领域都取得了令人瞩目的成功。在训练这些大规模的 DNN 模型时，正则化（regularization）技术，如 L2 Normalization、Batch Normalization、Dropout 等是不可缺少的模块，以防止模型过拟合（over-fitting），同时提升模型的泛化（generalization）能力。在这其中，Dropout 技术由于只需要简单地在训练过程中丢弃一部分的神经元，而成为了被最广为使用的正则化技术。

近日，微软亚洲研究院与苏州大学在 Dropout [1] 的基础上提出了进一步的正则方法：Regularized Dropout，简称R-Drop。与传统作用于神经元（Dropout）或者模型参数（DropConnect [2]）上的约束方法不同，R-Drop 作用于模型的输出层，弥补了 Dropout 在训练和测试时的不一致性。简单来说就是在每个 mini-batch 中，每个数据样本过两次带有 Dropout 的同一个模型，R-Drop 再使用 KL-divergence 约束两次的输出一致。所以，R-Drop 约束了由于 Dropout 带来的两个随机子模型的输出一致性。

与传统的训练方法相比，R- Drop 只是简单增加了一个 KL-divergence 损失函数项，并没有其他任何改动。虽然该方法看起来很简单，但实验表明，在5个常用的包含 NLP 和 CV 的任务中（一共18个数据集），R-Drop 都取得了非常不错的结果提升，并且在机器翻译、文本摘要等任务上取得了当前最优的结果。

论文链接：https://arxiv.org/abs/2106.14448

GitHub 链接：https://github.com/dropreg/R-Drop

R-Drop方法

由于深度神经网络非常容易过拟合，因此 Dropout 方法采用了随机丢弃每层的部分神经元，以此来避免在训练过程中的过拟合问题。正是因为每次随机丢弃部分神经元，导致每次丢弃后产生的子模型都不一样，所以 Dropout 的操作一定程度上使得训练后的模型是一种多个子模型的组合约束。基于 Dropout 的这种特殊方式对网络带来的随机性，研究员们提出了 R-Drop 来进一步对（子模型）网络的输出预测进行了正则约束。

图1：R-Drop 框架，在训练时由 Dropout 带来的两次概率 P_1 和 P_2 的不同

具体来说，当给定训练数据 D={x_i,y_i }_(i=1)^n 后，对于每个训练样本 x_i，会经过两次网络的前向传播，从而得到两次输出预测：P_1 (y_i│x_i ), P_2 (y_i |x_i)。由于 Dropout 每次会随机丢弃部分神经元，因此 P_1 和 P_2 是经过两个不同的子网络（来源于同一个模型）得到的不同的两个预测概率（如图1所示）。R-Drop 利用这两个预测概率的不同，采用了对称的 Kullback-Leibler (KL) divergence 来对 P_1 和 P_2 进行约束：

再加上传统的最大似然损失函数：

最终的训练损失函数即为：

其中 α 是用来控制 L_KL^i 的系数，因此整个模型的训练非常简单。在实际实现中，数据 x_i 不需要过两次模型，而只需要把 x_i 在同一个 batch 中复制一份即可。直观地说，在训练时，Dropout 希望每一个子模型的输出都接近真实的分布，然而在测试时，Dropout 关闭使得模型仅在参数空间上进行了平均，因此训练和测试存在不一致性。而 R-Drop 则在训练过程中通过刻意对于子模型之间的输出进行约束，来约束参数空间，让不同的输出都能一致，从而降低了训练和测试的不一致性。另外，研究员们还从理论的角度出发，阐述了 R-Drop 的约束项对于模型自由度的控制，从而更好地提升模型的泛化性能。

NLP+CV实验

为了验证 R-Drop 的作用，研究员们在5个不同的 NLP 以及 CV 的任务：机器翻译、文本摘要、语言模型、语言理解、图像分类，总计包含18个数据集上，进行了实验验证。

1. 在机器翻译任务上，基于最基础的Transformer [3]模型，R-Drop 的训练在 WMT14英语->德语以及英语->法语的任务上取得了最优的 BLEU 分数（30.91/43.95），超过了其他各类复杂、结合预训练模型、或更大规模模型的结果：

表1：R-Drop 在 WMT14 英语->德语与英语->法语机器翻译上的结果

2. 在图像分类任务上，基于预训练好的 Vision Transformer（ViT）[4] 为骨架网络，R-Drop 在 CIFAR-100 数据集以及 ImageNet 数据集上微调之后，ViT-B/16 和 ViT-L/16 的模型均取得了明显的效果提升：

表2：R-Drop 基于 Vision Transformer 在 CIFAR-100、ImageNet 微调后图像分类的结果

3. 在NLU 语言理解任务上，R-Drop 在预训练 BERT-base [5] 以及 RoBERTa-large [6] 的骨架网络上进行微调之后，在 GLEU 基础数据集上轻松取得了超过1.2和0.8个点的平均分数提升：

表3：R-Drop 在 GLUE 语言理解的验证集上的微调结果

4. 在文本摘要任务上，R-Drop 基于 BART [7] 的预训练模型，在 CNN/Daily Mail 数据上微调之后也取得了当前最优的结果：

表4：R-Drop 基于 BART 模型在 CNN/Daily Mail 文本摘要上微调的结果

5. 在语言模型任务上，基于原始 Transformer 以及 Adaptive Transformer [8]，R-Drop 的训练在 Wikitext-103 数据集上取得了1.79和0.80的 ppl 提升：

表5：R-Drop 在 Wikitext-103 数据上的语言模型结果

可以看到，R-Drop 虽然很简单，但效果非常出众，取得了很多任务上的最优结果，并且在文本、图像等不同的领域都能通用。除此之外，研究员们还进行了各类的分析实验，包括训练复杂度，k 步的 R-Drop、m 次的 R-Drop 等等，更进一步对 R-Drop 进行了全面的剖析。

结语与展望

R-Drop 的提出基于 Dropout 的随机性，简单有效。在该工作中，目前只对于有监督的任务进行了研究，未来在无监督、半监督学习中，以及更多不同数据类型的任务中，也值得更为深入地探索。欢迎大家使用 R-Drop 训练技术在各类实际的场景中进行应用。期待 R-Drop 的思想能启发更多好的工作。

相关内容

暂退法

关注 0

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

专知会员服务

64+阅读 · 2022年3月23日

【CVPR2022】 Dropout在图像超分任务中的重煥新生

专知会员服务

19+阅读 · 2022年3月5日

【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法

专知会员服务

26+阅读 · 2021年12月27日

训练深度学习模型，46页ppt

专知会员服务

54+阅读 · 2021年6月17日

Graph Normalization (GN)：为图神经网络学习一个有效的图归一化

专知会员服务

16+阅读 · 2020年9月28日

一份简单《图神经网络》教程，28页ppt

专知会员服务

126+阅读 · 2020年8月2日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

【清华大学】图随机神经网络，Graph Random Neural Networks

专知会员服务

156+阅读 · 2020年5月26日

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

变分贝叶斯深度学习综述

PaperWeekly

6+阅读 · 2022年3月21日

【CVPR2022】Dropout在图像超分任务中的重煥新生

专知

0+阅读 · 2022年3月5日

输入梯度惩罚与参数梯度惩罚的一个不等式

PaperWeekly

0+阅读 · 2021年12月27日

浅谈NLP中的对抗训练方式

PaperWeekly

2+阅读 · 2021年12月18日

Dropout视角下的MLM和MAE：一些新的启发

PaperWeekly

1+阅读 · 2021年12月6日

Child-Tuning：简单有效的微调涨点方法

夕小瑶的卖萌屋

1+阅读 · 2021年11月5日

反向 Dropout！韩松团队最新工作NetAug：提高Tiny神经网络性能的新训练方法

极市平台

1+阅读 · 2021年10月22日

哈工大｜NLP数据增强方法？我有15种

哈工大SCIR

1+阅读 · 2021年10月13日

卷积神经网络的最佳解释！

专知

12+阅读 · 2018年5月1日

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

梯度热障涂层内的传热微观机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

光学遥感邻近效应机理与模拟方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

混凝土细观损伤模拟与数值尺寸效应研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于图的半监督学习关键问题研究及其在图像理解中的应用

国家自然科学基金

4+阅读 · 2012年12月31日

基于稀疏编码模型的深层学习神经网络

国家自然科学基金

7+阅读 · 2012年12月31日

功能梯度多孔形状记忆合金的相变机理与力学性能分析

国家自然科学基金

0+阅读 · 2011年12月31日

块体气凝胶新型通用合成方法凝胶化机理的实验论证与计算模拟

国家自然科学基金

1+阅读 · 2011年12月31日

基于随机缺陷的版图布线优化算法研究

国家自然科学基金

0+阅读 · 2011年12月31日

机器学习中模型选择问题的研究及其在图像理解中的应用

国家自然科学基金

8+阅读 · 2008年12月31日

Residual Mixture of Experts

Arxiv

0+阅读 · 2022年4月20日

Looking Outside the Window: Wide-Context Transformer for the Semantic Segmentation of High-Resolution Remote Sensing Images

Arxiv

0+阅读 · 2022年4月20日

On an interior-exterior nonoverlapping domain decomposition method for the Poisson--Boltzmann equation

Arxiv

0+阅读 · 2022年4月17日

Accurate ADMET Prediction with XGBoost

Arxiv

0+阅读 · 2022年4月15日

Convergence and Implicit Regularization Properties of Gradient Descent for Deep Residual Networks

Arxiv

0+阅读 · 2022年4月14日

Flexible Marginal Models for Dependent Data

Arxiv

0+阅读 · 2022年4月14日

Invariant Information Bottleneck for Domain Generalization

Arxiv

15+阅读 · 2021年12月10日

Adaptive Methods for Real-World Domain Generalization

Arxiv

13+阅读 · 2021年3月29日

Simplifying Graph Convolutional Networks

Arxiv

12+阅读 · 2019年2月19日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

VIP会员