由于硬件资源有限,深度学习模型的训练目标通常是在训练和推理的时间和内存限制下最大化准确性。在这种情况下,我们研究了模型大小的影响,关注于计算受限的NLP任务的Transformer模型:自监督的预训练和高资源机器翻译。我们首先展示了,尽管较小的Transformer模型在每次迭代中执行得更快,但更广、更深入的模型在显著更少的步骤中收敛。此外,这种收敛速度通常超过了使用更大模型的额外计算开销。因此,计算效率最高的训练策略是反直觉地训练非常大的模型,但在少量迭代后停止。

这导致了大型Transformer 模型的训练效率和小型Transformer 模型的推理效率之间的明显权衡。然而,我们表明大模型比小模型在压缩技术(如量化和剪枝)方面更健壮。因此,一个人可以得到最好的两个好处: 重压缩,大模型比轻压缩,小模型获得更高的准确度

https://www.zhuanzhi.ai/paper/4d7bcea8653fcc448137766511ec7d8a

概述:

在当前的深度学习范式中,使用更多的计算(例如,增加模型大小、数据集大小或训练步骤)通常会导致更高的模型准确度(brock2018large;raffel2019exploring)。最近自监督预训练的成功进一步论证了这种趋势经模型。因此,计算资源日益成为提高模型准确度的关键制约因素。这个约束导致模型训练的(通常是隐含的)目标是最大化计算效率:如何在固定的硬件和训练时间下达到最高的模型准确度。

最大化计算效率需要重新考虑关于模型训练的常见假设。特别是,有一个典型的隐式假设,即模型必须经过训练直到收敛,这使得较大的模型在有限的计算预算下显得不太可行。我们通过展示以收敛为代价来增加模型大小的机会来挑战这一假设。具体地说,我们表明,训练Transformer 模型的最快方法(vaswani2017attention)是大幅度增加模型大小,但很早停止训练。

在我们的实验中,我们改变了Transformer模型的宽度和深度,并在自监督的预训练(RoBERTa (liu2019roberta)在Wikipedia和BookCorpus上训练)和机器翻译(WMT14英语→法语)上评估了它们的训练时间和准确性。对于这些任务,我们首先展示了更大的模型比更小的模型在更少的梯度更新中收敛到更低的验证错误(第3节)。此外,这种收敛速度的增加超过了使用更大模型所带来的额外计算开销——计算效率最高的模型是非常大的,并且远远不能收敛(例如,图2,左)。我们还表明,收敛的加速主要是参数计数的函数,只有模型宽度、深度和批大小的微弱影响。

虽然较大的模型训练速度更快,但它们也增加了推理的计算和内存需求。这种增加的成本在现实应用中尤其成问题,推理成本占训练成本的主要比例(jouppi2017datacenter;crankshaw2017clipper;metz2017tpu)。然而,对于RoBERTa来说,这种明显的权衡可以与压缩相协调:与小型模型相比,大型模型在压缩方面更加健壮(第4节)。因此,使用可比较的推理成本,大型重压缩的模型优于小型轻压缩的模型(例如,图2,右)。

成为VIP会员查看完整内容
0
30

相关内容

深度神经网络最近展示了其解决复杂任务的惊人能力。如今的模型使用功能强大的GPU卡在数百万个示例上进行训练,能够可靠地对图像进行注释、翻译文本、理解口语或玩国际象棋或围棋等战略性游戏。此外,深度学习也将成为未来许多技术的组成部分,例如自动驾驶、物联网(IoT)或5G网络。特别是随着物联网的出现,智能设备的数量在过去几年里迅速增长。这些设备中有许多都配备了传感器,使它们能够以前所未有的规模收集和处理数据。这为深度学习方法提供了独特的机会。

然而,这些新的应用程序带有许多附加的约束和要求,这些约束和要求限制了当前模型的开箱即用。

1. 嵌入式设备、物联网设备和智能手机的内存和存储容量有限,能源资源有限. 像VGG-16这样的深度神经网络需要超过500 MB的内存来存储参数,执行单次向前传递需要15 gb的操作。很明显,这些模型的当前(未压缩的)形式不能在设备上使用。

2. 训练数据通常分布在设备上,由于隐私问题或有限的资源(带宽),无法简单地在中央服务器上收集. 由于只有少量数据点的模型的局部训练通常不太有希望,因此需要新的协作训练方案来将深度学习的能力引入这些分布式应用程序。

本教程将讨论最近提出的解决这两个问题的技术。我们将首先简要介绍深度学习,它的当前使用和今天的模型在计算和内存复杂性、能源效率和分布式环境方面的局限性。我们将强调解决这些问题的实际需要,并讨论实现这一目标的最新进展,包括ITU ML5G和MPEG AHG CNNMCD正在开展的标准化活动。

然后我们将进入神经网络压缩的话题。我们将首先简要介绍源编码和信息论的基本概念,包括速率失真理论、量化、熵编码和最小描述长度原则。这些概念需要形式化的神经网络压缩问题。然后我们将继续讨论压缩DNNs的具体技术。为此,我们将区分压缩过程的不同步骤,即剪枝和稀疏化、量化和熵编码。前两步是有损的,而最后一步是无损的。由于缩小尺寸并不是神经网络压缩的唯一目标(例如,快速推理、能源效率是其他目标),我们还将讨论有效推理的方法,包括最近提出的神经网络格式。最后,我们将介绍一个用例,即设备上的语音识别,演示如何在实际应用中使用压缩方法。

最后我们将介绍分布式学习的最新发展。我们提出了不同的分布式训练场景,并根据它们的通信特性进行了比较。接下来,我们将重点讨论联邦学习。我们列举了联邦学习中存在的挑战——通信效率、数据异构性、隐私、个性化、健壮性——并提出了解决这些挑战的方法。我们特别关注为减少分布式学习中的通信开销而提出的技术,并讨论集群化FL,这是一种与模型无关的分布式多任务优化的新方法。这里我们将强调本教程第一部分中介绍的概念的相似性,即稀疏化、量化和编码。

目录:

  1. 介绍
  • 目前使用的深度学习
  • 现有模型和新应用的实际局限性
  • 研究、工业和标准化方面的最新发展
  1. 神经网络压缩
  • 背景:资料编码、信息论
  • 修剪和稀疏化方法
  • 量化和定点推理
  • 神经网络格式
  • 用例研究:设备上的语音识别

3.问题 4. 休息时间 5. 分布式学习

  • 背景:SGD,学习理论
  • 联邦和分布式学习的基本概念
  • 减少通信开销和连接到NN压缩
  • 联邦学习和差异隐私
  • 集群联合学习
  1. 问题
成为VIP会员查看完整内容
0
58

深度和大型的预训练语言模型是各种自然语言处理任务的最新技术。然而,这些模型的巨大尺寸可能会阻碍在实践中使用它们。最近的一些并行工作使用知识蒸馏来将这些庞大的模型压缩成小型模型。在这项工作中,我们以多语言命名实体识别(NER)为重点来研究知识蒸馏。特别地,我们研究了几种提炼策略,并提出了一种利用教师内部表征的阶段性优化方案,该方案不考虑教师体系结构,并证明其优于以往工作中所采用的策略。此外,我们还研究了几个因素的作用,比如未标记数据的数量、注释资源、模型架构和推理延迟等等。我们证明,我们的方法可以将类mbert教师模型的参数压缩高达35倍,批量推理的延迟压缩51倍,而NER超过41种语言的95%的f1分都保留下来。

成为VIP会员查看完整内容
0
15

自然语言处理(NLP)中神经网络模型的标准归一化方法是层归一化(LN)。这不同于计算机视觉中广泛采用的批量归一化(BN)。LN在NLP中的优先使用主要是由于经验观察,使用BN会导致NLP任务的性能显著下降;然而,对其根本原因的透彻理解并不总是显而易见的。在本文中,我们对NLP transformers 模型进行了系统的研究,以了解为什么BN与LN相比性能较差。我们发现,整个批处理维度的NLP数据统计在整个训练过程中呈现出较大的波动。这导致不稳定,如果BN是天真地执行。为了解决这个问题,我们提出Power 归一化(PN),一种新的归一化方案, 解决这个问题(i)放松零均值归一化的BN, (ii) 将运行二次平均,而不是每批统计数据稳定的波动,和(iii)使用一个近似反向传播。在温和的假设下,我们从理论上证明了PN相对于BN会导致更小的Lipschitz常数的损失。此外,我们证明了近似的反向传播方案会导致有界梯度。我们在一系列NLP任务中对Transformer的PN进行了广泛的测试,结果表明它的性能显著优于LN和BN。特别是,PN在IWSLT14/WMT14上的表现比LN好0.4/0.6个BLEU,在PTB/WikiText-103上的表现比LN好5.6/3.0个PPL。

成为VIP会员查看完整内容
0
25

由于硬件资源有限,训练深度学习模型的目标通常是在训练和推理的时间和记忆约束下使准确性最大化。在这种情况下,我们研究了模型大小的影响,重点研究了受计算限制的NLP任务的Transformer模型:自我监督的预训练和高资源机器翻译。我们首先表明,尽管较小的Transformer模型在每次迭代中执行得更快,但是更广泛和更深入的模型在更少的步骤中收敛。此外,这种收敛速度通常超过使用大型模型的额外计算开销。因此,最具计算效率的训练策略是反直觉地训练非常大的模型,但是在少量的迭代之后停止。

这导致大型Transformer 模型的训练效率与小型Transformer 模型的推理效率之间存在明显的权衡。然而,我们证明大型模型比小型模型对量化和剪枝等压缩技术有更强的鲁棒性。因此,我们可以同时利用两个方面的优势:高度压缩的大型模型比轻度压缩的小型模型获得更高的精度。

成为VIP会员查看完整内容
0
21
小贴士
相关VIP内容
专知会员服务
23+阅读 · 2020年7月5日
专知会员服务
15+阅读 · 2020年4月14日
专知会员服务
25+阅读 · 2020年3月21日
专知会员服务
21+阅读 · 2020年3月6日
BERT进展2019四篇必读论文
专知会员服务
45+阅读 · 2020年1月2日
相关资讯
深度学习的下一步:Transformer和注意力机制
云头条
28+阅读 · 2019年9月14日
已删除
将门创投
10+阅读 · 2019年4月26日
CMU、谷歌提出Transformer-XL:学习超长上下文关系
机器之心
6+阅读 · 2019年1月18日
已删除
将门创投
7+阅读 · 2018年11月5日
CNN 模型压缩与加速算法综述
机器学习研究会
10+阅读 · 2017年8月25日
相关论文
Shangwen Lv,Yuechen Wang,Daya Guo,Duyu Tang,Nan Duan,Fuqing Zhu,Ming Gong,Linjun Shou,Ryan Ma,Daxin Jiang,Guihong Cao,Ming Zhou,Songlin Hu
9+阅读 · 2020年4月12日
Attention Forcing for Sequence-to-sequence Model Training
Qingyun Dou,Yiting Lu,Joshua Efiong,Mark J. F. Gales
6+阅读 · 2019年9月26日
Betty van Aken,Benjamin Winter,Alexander Löser,Felix A. Gers
3+阅读 · 2019年9月11日
Yang Liu
3+阅读 · 2019年9月5日
Do Transformer Attention Heads Provide Transparency in Abstractive Summarization?
Joris Baan,Maartje ter Hoeve,Marlies van der Wees,Anne Schuth,Maarten de Rijke
3+阅读 · 2019年7月8日
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Zihang Dai,Zhilin Yang,Yiming Yang,Jaime Carbonell,Quoc V. Le,Ruslan Salakhutdinov
9+阅读 · 2019年6月2日
Baosong Yang,Longyue Wang,Derek F. Wong,Lidia S. Chao,Zhaopeng Tu
4+阅读 · 2019年4月8日
Contextualized Non-local Neural Networks for Sequence Learning
Pengfei Liu,Shuaichen Chang,Xuanjing Huang,Jian Tang,Jackie Chi Kit Cheung
3+阅读 · 2018年11月21日
Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova
9+阅读 · 2018年10月11日
Chiyuan Zhang,Oriol Vinyals,Remi Munos,Samy Bengio
7+阅读 · 2018年4月20日
Top