不同设备往往对训练的模型有不同的要求,如模型占用内存的大小、推理时延等。为了满足设备的要求,技术人员往往需要对大规模的预训练模型进行压缩处理。但是由于存在大量复杂的场景和不同的下游任务,专门为每一种场景设计压缩过的BERT模型,需要投入大量的人力和计算资源。

对此,微软亚洲研究院的研究员们提出了 NAS-BERT 技术(相关论文已发表在 KDD 2021 大会上),可以直接在上游预训练任务中进行压缩训练,使压缩模型不再依赖于下游的具体任务。并且 NAS-BERT 只需通过一次搜索就可以直接产生不同尺寸的模型,进而满足不同设备的要求。所以即使是资源受限的设备,也可以动态选择合适的架构。相较于传统方法,NAS-BERT 极大地提高了训练效率。

论文链接:https://arxiv.org/abs/2105.14444

如表1所示,之前大部分的压缩工作都是针对具体任务本身而设计方法实现的。比如,DisilBERT 等工作会直接在上游模型进行压缩学习,对下游任务无关,但不能适应各种不同受限资源的场景。DynaBERT 则可以在下游任务中通过一次训练产生多种不同大小的模型,以达到动态调整尺寸的目的。而 NAS-BERT 与其他几种工作不同,它可以同时做到任务无关和动态调整尺寸,并且达到优越的性能。

表1:之前的 BERT 压缩工作

为了让 NAS-BERT 实现上述目的,研究员们直接在上游预训练阶段对 NAS-BERT 进行了架构搜索(NAS)与训练,并且一次性搜索出各种大小的模型,以方便各种场景的部署。通过尝试架构层面的组合方式,NAS-BERT 不仅能够探索模型本身的潜力,还可以搜索出更加优越的架构。

具体而言,NAS-BERT 首先在上游预训练任务上训练一个超网络。其中,超网络中的一个有向无环图就是一个架构,不同的架构在超网络中共享参数来降低训练成本。然后研究员们再通过自动架构搜索技术去训练这个超网络。由于超网络中包括各种尺寸的模型,因此可以覆盖到各种不同的模型大小。最后,在用超网络去评价每个架构的性能并选择出优越的架构。

然而在 BERT 预训练任务上做自动架构搜索是具有挑战性的。其主要原因有:1. BERT 预训练本身收敛慢并且需要巨大的计算资源;2. 巨大的搜索空间会进一步导致训练超网络变得困难。为了解决这两个问题,NAS-BERT 主要采用了模块化搜索和逐渐缩小搜索空间的技术。同时,为了在缩小搜索空间的基础上能够给出各种不同的架构,NAS-BERT 还使用了分桶搜索把搜索空间分成众多不同的桶,不同桶中的架构有着不同的模型大小和延迟,桶中的架构相互竞争,从而选出最优越的架构。并且不同桶的架构通过权重共享,以降低架构搜索的代价。通过使用这些技术,NAS-BERT 才得以快速地搜索出各种不同的优越架构。

成为VIP会员查看完整内容
0
13

相关内容

表格是一种非常重要和常见的半结构化数据,广泛使用在文档和网页中。在收集的六千万个文档和网页表格(包括超过二十亿单元格)中,微软亚洲研究院的研究员们首次对通用结构的表格进行了大规模的预训练。并且在表格结构理解的六个下游数据集上,也都取得 SOTA 的效果。

理解表格面临着各种挑战,需要综合理解语义、空间和结构,如:需要在简短的单元格文本里来捕捉表格里的语义;需要在二维的表格空间中进行理解;需要对表格的层级信息理解。

Transformer 在自然语言的预训练上已经取得了较好的效果。但是,针对通用表格位置、结构建模困难等一系列问题,本文相应地提出了 Tree-based Transformer。同时,研究员们还设计了二维树来建模单元格的空间和层级,并对单元格的二维树坐标和单元格间的二维树距离进行了量化,进一步设计了基于二维树结构的注意力机制。

在表格预训练任务上,为了可以学习到不同层级的表征,且更好的应用到不同级别的下游任务上,本文除了使用经典的 token MLM 任务,还进一步设计了 cell-level cloze 的任务和 table-level 的 context retrieval 任务。

实验表明,模型在表格结构理解(表格类型识别和单元格类型识别)的六个下游数据集上均取得了最好的效果。消融实验也证明了利用树结构对理解通用结构表格的有效性。同时,结合三个预训练任务,也有助于提高下游任务的表现。

成为VIP会员查看完整内容
0
14

图神经网络(GNNs)被广泛用于学习一种强大的图结构数据表示。最近的研究表明,将知识从自监督任务迁移到下游任务可以进一步改善图的表示。然而,自监督任务与下游任务在优化目标和训练数据上存在内在的差距。传统的预训练方法可能对知识迁移不够有效,因为它们不能适应下游任务。为了解决这一问题,我们提出了一种新的迁移学习范式,该范式可以有效地将自监督任务作为辅助任务来帮助目标任务。在微调阶段,我们的方法将不同的辅助任务与目标任务进行自适应的选择和组合。我们设计了一个自适应辅助损失加权模型,通过量化辅助任务与目标任务之间的一致性来学习辅助任务的权重。此外,我们通过元学习来学习权重模型。我们的方法可以运用于各种迁移学习方法,它不仅在多任务学习中有很好的表现,而且在预训练和微调中也有很好的表现。在多个下游任务上的综合实验表明,所提出的方法能够有效地将辅助任务与目标任务相结合,与现有的方法相比,显著提高了性能。

https://www.zhuanzhi.ai/paper/852db932624d6feeb7bbd32e67772b27

成为VIP会员查看完整内容
0
28

虽然预训练语言模型(例如BERT)在不同的自然语言处理任务上取得了令人印象深刻的结果,但它们有大量的参数,并承受着巨大的计算和内存成本,这使得它们难以在现实世界中部署。因此,为了降低预训练模型的计算和存储成本,需要对模型进行压缩。在这项工作中,我们的目标是压缩BERT,并解决以下两个具有挑战性的实际问题: (1)压缩算法应该能够输出多个不同大小和延迟的压缩模型,以支持不同内存和延迟限制的设备;(2)算法应与下游任务无关,这样压缩模型一般适用于不同的下游任务。我们利用神经结构搜索(NAS)中的技术,提出了一种有效的BERT压缩方法NAS-BERT。NAS-BERT在精心设计的搜索空间上训练一个大型超级网络,该搜索空间包含各种架构,并输出具有自适应大小和延迟的多个压缩模型。此外,NAS-BERT的训练是在标准的自监督的训练前任务(如掩体语言模型)上进行的,不依赖于特定的下游任务。因此,压缩的模型可以跨任务使用。NAS-BERT的技术挑战在于,在训练前的任务上训练一个大型超级网络是极其昂贵的。我们采用了块搜索、搜索空间剪枝和性能逼近等技术来提高搜索效率和准确性。对GLUE和SQuAD基准数据集的大量实验表明,NAS-BERT可以找到比以前的方法更精确的轻量级模型,并可以直接应用于不同的下游任务,这些任务具有适应的模型规模,以满足不同的内存或延迟需求。

https://www.zhuanzhi.ai/paper/6f115ce6f43323f92838b15e0030f2a4

成为VIP会员查看完整内容
0
8

权值共享的神经结构搜索通过训练一个包含所有分支的超网络来复用不同操作上的计算量,以子网络采样的方式评估网络结构,大幅度提高了搜索速度。然而,这种子网络采样的方式并不能保证子网络的评估性能准确反映其真实属性。本文认为产生这一现象的原因是使用共享权值构建子网络的过程中产生了权值失配,使得评估性能中混入了一个随机噪声项。本论文提出使用一个图卷积网络来拟合采样子网络的评估性能,从而将这个随机噪声的影响降至最低。实验结果表明,使用本方案后,子网络的拟合性能与真实性能间的排序相关性得到有效提高,最终搜索得到的网络结构性能也更加优异。此外,本方案通过图卷积网络拟合了整个搜索空间中子网络的评估性能,因此可以很方便地选取符合不同硬件约束的网络结构。

https://www.zhuanzhi.ai/paper/552ac305907809721f9f1fd86b8943c9

成为VIP会员查看完整内容
0
7

近来,基于Transformer结构的预训练语言模型(如BERT和RoBERTa)在自然语言处理任务上取得了显著成果。但是,这些模型参数量巨大,限制了其在存储、计算、功耗等性能有限的边缘设备上的部署。将BERT部署到这些设备的困难体现在两个方面:(1)各种终端设备性能各不一样,怎么给不同性能的设备部署适合自身性能的模型;(2)同一个终端设备在不同的情况下可接受的运行BERT模型的存储、计算和功耗也不一样。为了解决这个问题,我们提出了一种宽度和深度可伸缩的动态预训练模型DynaBERT。与以往将BERT网络压缩到固定大小或者只在深度方向做可伸缩的方法相比,本文第一次提出来在BERT宽度方向进行可伸缩训练。宽度可伸缩通过调整Transformer层可以并行计算的注意力头和全连接层中间层神经元数目达到。本文还针对宽度方向提出了新颖的网络重连方式使得重要的注意力头和神经元被更多的子网络共享。在基准数据集上的实验结果表明,该模型通过新颖的知识蒸馏策略显著提升了子网络在NLU任务上的准确率。该模型可以根据不同设备的硬件性能部署不同宽度和深度的子网络。并且一旦某个设备部署了BERT模型,该设备也可以根据自身资源条件动态加载已部署模型的一部分进行推理。代码已经开源在https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/DynaBERT。

成为VIP会员查看完整内容
0
16

自然语言处理(NLP)最近取得了巨大的成功,它使用了带有数亿个参数的巨大的预先训练的模型。然而,这些模型存在模型大小过大和延迟时间长等问题,因此无法部署到资源有限的移动设备上。在本文中,我们提出了压缩和加速流行的BERT模型的MobileBERT。与最初的BERT一样,MobileBERT是与任务无关的,也就是说,它可以通过简单的微调应用于各种下游NLP任务。基本上,MobileBERT是BERT_LARGE的瘦版,同时配备了瓶颈结构和精心设计的自关注和前馈网络之间的平衡。为了训练MobileBERT,我们首先训练一个特别设计的教师模型,一个倒瓶颈合并BERT_LARGE模型。然后,我们把这个老师的知识传递给MobileBERT。实证研究表明,MobileBERT比BERT_BASE小4.3倍,快5.5倍,同时在著名的基准上取得了有竞争力的结果。在GLUE的自然语言推断任务中,MobileBERT实现了GLUEscore o 77.7(比BERT_BASE低0.6),在Pixel 4手机上实现了62毫秒的延迟。在team v1.1/v2.0的问题回答任务中,MobileBERT获得了dev F1的90.0/79.2分(比BERT_BASE高1.5/2.1分)。

成为VIP会员查看完整内容
0
10
小贴士
相关VIP内容
专知会员服务
11+阅读 · 8月24日
专知会员服务
14+阅读 · 8月22日
专知会员服务
28+阅读 · 7月25日
专知会员服务
30+阅读 · 6月20日
专知会员服务
60+阅读 · 2020年8月22日
专知会员服务
17+阅读 · 2020年4月14日
相关资讯
pytorch中文语言模型bert预训练代码
AINLP
3+阅读 · 2020年7月22日
3倍加速CPU上的BERT模型部署
ApacheMXNet
6+阅读 · 2020年7月13日
一文读懂模型压缩
极市平台
3+阅读 · 2020年3月16日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
14+阅读 · 2019年5月1日
CVPR 2019 | 用异构卷积训练深度CNN:提升效率而不损准确度
BERT-预训练的强大
微信AI
47+阅读 · 2019年3月7日
Perseus-BERT——业内性能极致优化的BERT训练方案
云栖社区
15+阅读 · 2019年2月20日
相关论文
Jin Xu,Xu Tan,Renqian Luo,Kaitao Song,Jian Li,Tao Qin,Tie-Yan Liu
8+阅读 · 5月30日
Lu Hou,Zhiqi Huang,Lifeng Shang,Xin Jiang,Xiao Chen,Qun Liu
8+阅读 · 2020年10月9日
TinyBERT: Distilling BERT for Natural Language Understanding
Xiaoqi Jiao,Yichun Yin,Lifeng Shang,Xin Jiang,Xiao Chen,Linlin Li,Fang Wang,Qun Liu
8+阅读 · 2019年9月23日
Sheng Shen,Zhen Dong,Jiayu Ye,Linjian Ma,Zhewei Yao,Amir Gholami,Michael W. Mahoney,Kurt Keutzer
3+阅读 · 2019年9月12日
Fine-tuning BERT for Joint Entity and Relation Extraction in Chinese Medical Text
Kui Xue,Yangming Zhou,Zhiyuan Ma,Tong Ruan,Huanhuan Zhang,Ping He
5+阅读 · 2019年8月21日
Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation
Chenxi Liu,Liang-Chieh Chen,Florian Schroff,Hartwig Adam,Wei Hua,Alan Yuille,Li Fei-Fei
5+阅读 · 2019年1月10日
Catherine Wong,Neil Houlsby,Yifeng Lu,Andrea Gesmundo
4+阅读 · 2018年9月11日
Document Image Classification with Intra-Domain Transfer Learning and Stacked Generalization of Deep Convolutional Neural Networks
Arindam Das,Saikat Roy,Ujjwal Bhattacharya,Swapan Kumar Parui
3+阅读 · 2018年6月26日
Qingyao Ai,Keping Bi,Jiafeng Guo,W. Bruce Croft
4+阅读 · 2018年4月16日
Top