涵盖了主要技术,在压缩、扩展中的使用,以及许多未预料到的用例(例如攻击、NAT、传输)

https://slideslive.com/38940102

成为VIP会员查看完整内容
0
22

相关内容

迁移学习从根本上改变了自然语言处理(NLP)的处理范式。许多最先进的模型首先在大型文本语料库上进行预先训练,然后在下游任务上进行微调。然而,当我们对下游任务的监督有限且薄弱时,由于预训练模型的复杂度极高,过度微调往往会导致微调后的模型对下游任务的训练数据进行过拟合,而不能泛化到看不到的数据。

为了解决这一问题,我们提出了一种新的方法来微调预先训练的模型,以获得更好的泛化性能。我们提出的方法采用了三个重要成分: (1)平滑诱导正则化,有效地管理了大量模型的复杂性; (2) Bregman近端点优化,它是信任域方法的一个实例,可以防止恶意更新;(3)自训练,可以逐步改进模型拟合,有效抑制误差传播。我们的实验表明,在有限或弱监督的情况下,该方法明显优于现有的NLP任务。

成为VIP会员查看完整内容
0
15

贝叶斯概率模型为不确定性下的相干推理和预测提供了一个原则框架。近似推理解决了贝叶斯计算的关键挑战,即计算棘手的后验分布和相关数量,如贝叶斯预测分布。近十年来,贝叶斯建模技术在计算机视觉、自然语言处理、强化学习等领域的机器学习任务中得到了广泛应用。

本教程对近似推理的最新进展进行了一个连贯的总结。我们将以介绍近似推理的概念和变分推理的基础知识开始本教程。然后我们将描述现代近似推理的基本方面,包括可扩展推理、蒙特卡洛技术、平摊推理、近似后验设计和优化目标。这些最新进展之间的联系也将被讨论。最后,我们将在下游不确定性估计和决策任务中的应用实例提供先进的近似推理技术,并对未来的研究方向进行讨论。

成为VIP会员查看完整内容
0
19

对话人工智能系统通过完成用户请求或进行简单的聊天与人类用户进行交互。这些系统的应用范围从个人帮助、健康帮助到客户服务等等。在这个由三部分组成的教程中,我们将首先概述最先进的模块化对话AI方法,这些方法通常被面向任务的对话系统所采用。然后,我们将概述当前基于序列到序列、生成的对话AI方法。我们将讨论普通的基于生成的模型的挑战和缺点,如缺乏知识、一致性、同理心、可控性、多功能性等。然后我们将强调当前的工作,以解决这些挑战,并在改进深度生成为基础的ConvAI。在本教程的最后一部分,我们将指出对话AI的挑战和未来研究的可能方向,包括如何减轻不适当的回复和终身学习。我们还将概述模块化和基于生成的对话AI的共享任务和公开可用资源。

https://nips.cc/Conferences/2020/Schedule?showEvent=16657

成为VIP会员查看完整内容
0
13

近年来,规模在自然语言处理的快速发展中发挥了核心作用。虽然基准测试被越来越大的模型所主导,但高效的硬件使用对于它们的广泛采用和该领域的进一步发展至关重要。在这个尖端的教程中,我们将概括自然语言处理的最先进技术。在建立这些基础之后,我们将介绍广泛的提高效率的技术,包括知识蒸馏、量化、修剪、更高效的架构,以及案例研究和实际实现技巧。

https://2020.emnlp.org/tutorials

成为VIP会员查看完整内容
0
33

自然语言处理中的预训练模型

论文:【复旦大学】最新《预训练语言模型》2020综述论文大全,50+PTMs分类体系,25页pdf205篇参考文献

目前预训练模型在自然语言处理领域取得了广泛的成功。本报告的内容主要涵盖以下4部分内容:1)预训练模型的原理介绍,包括模型结构、学习准则、发展历程等;2)预训练模型的迁移方法:包括如何通过任务转换、多步迁移、改进精调等方法来进一步提高预训练模型在下游任务上的性能;3)预训练模型的改进模型:包括知识嵌入模型、多模态模型、多语言模型、语言特定模型、领域特定模型和模型压缩等;4)对预训练模型及其未来发展趋势进行展望。

视频: https://hub.baai.ac.cn/view/3868

成为VIP会员查看完整内容
0
41

迁移学习技术在难以获得大量高质量注释数据的NLP任务中特别有用。目前的方法在对下游任务进行微调之前,直接对域内文本采用预先训练好的语言模型(LM)。我们展示了使用特定于领域的术语扩展LM的词汇表会带来进一步的收获。在更大的效果上,我们利用未标记数据中的结构创建辅助合成任务,这有助于LM向下游任务转移。在事先训练好的Roberta-large LM系统上逐步应用这些方法,并在IT领域的三个任务上显示出可观的性能提升:阅读理解、文档排序和重复问题检测。

https://arxiv.org/abs/2010.05904

成为VIP会员查看完整内容
0
12

自然语言处理中的预训练模型

论文:【复旦大学】最新《预训练语言模型》2020综述论文大全,50+PTMs分类体系,25页pdf205篇参考文献

目前预训练模型在自然语言处理领域取得了广泛的成功。本报告的内容主要涵盖以下4部分内容:1)预训练模型的原理介绍,包括模型结构、学习准则、发展历程等;2)预训练模型的迁移方法:包括如何通过任务转换、多步迁移、改进精调等方法来进一步提高预训练模型在下游任务上的性能;3)预训练模型的改进模型:包括知识嵌入模型、多模态模型、多语言模型、语言特定模型、领域特定模型和模型压缩等;4)对预训练模型及其未来发展趋势进行展望。

成为VIP会员查看完整内容
0
57

【导读】知识蒸馏是一种典型的模型压缩和加速方法,在很多应用场景对此有需求。来自悉尼大学的学者发布了《知识蒸馏》的综述论文,值的关注。

https://arxiv.org/abs/2006.05525

近年来,深度神经网络在工业和学术界取得了巨大的成功,特别是在视觉识别和神经语言处理方面的应用。深度学习的巨大成功,主要归功于其巨大的可扩展性,既有大规模的数据样本,也有数十亿的模型参数。然而,在资源有限的设备如移动电话和嵌入式设备上部署这些笨重的深模型也带来了巨大的挑战,不仅因为计算量大,而且存储空间大。为此,开发了各种模型压缩和加速技术,如剪枝、量化和神经结构搜索。知识蒸馏是一种典型的模型压缩和加速方法,旨在从大教师模型中学习小学生模型,越来越受到社会的关注。本文从知识分类、训练方案、知识提取算法以及应用等方面对知识提取进行了综述。此外,我们简要回顾了知识提炼的挑战,并对未来的研究课题提供了一些见解。

概述

在过去的几年里,深度学习在人工智能领域取得了巨大的成功,包括计算机视觉(Krizhevsky et al., 2012)、强化学习(Silver et al., 2016)和神经语言处理(Devlin et al., 2018)的各种应用。借助最近许多技术,包括残差连接(He et al., 2016)和批处理归一化(Ioffe and Szegedy, 2015),我们可以轻松地在强大的GPU或TPU集群上训练具有数千层的深度模型。例如,只需不到10分钟就可以在数百万张图像的数据集上训练ResNet模型(Deng et al. , 2009 ; Sun et al. , 2019); 训练一个强大的BERT模型进行语言理解只需要不到一个半小时 (Devlin et al., 2018; You et al., 2019).。虽然大规模的深度模型带来了令人难以置信的性能,但其庞大的计算复杂度和海量的存储需求给实时应用的部署带来了巨大的挑战,特别是对于那些资源有限的设备,比如嵌入式人脸识别系统和自动驾驶汽车。

为了开发高效的深度模型,最近的工作通常集中在1)基于深度可分离卷积的高效基本块,如MobileNets (Howard et al. , 2017 ; Sandler et al. , 2018) 和ShuffleNets (Zhang et al. , 2018a ; Ma et al. , 2018); (2)模型压缩和加速技术,主要包括以下类别(Cheng et al., 2018)。

  • 参数修剪和共享: 这些方法主要是去除深层神经网络中不重要的参数,去除的参数对性能影响不大。该类别又分为模型量化(Wu et al., 2016)和二值化(Courbariaux et al., 2015)、参数共享(Han et al., 2015)和结构矩阵(Sindhwani et al., 2015)。

  • 低秩分解: 这些方法通过矩阵/张量分解来探索深度神经网络参数的冗余性(Denton et al., 2014)。

  • 传输/压缩卷积滤波器: 这些方法通过传输/压缩卷积滤波器来减少不必要的参数(Zhai et al., 2016)。

  • 知识蒸馏(KD): 这些方法通常将知识从一个较大的深度神经网络提取到一个较小的网络中(Hinton et al., 2015)。

对模型压缩和加速的全面回顾超出了本文涵盖的范围,而我们关注的是知识蒸馏,这已经得到越来越多的研究社区关注。在实践中,大型深度模型往往会取得非常好的性能,因为过参数化提高了泛化性能 (Brutzkus and Globerson, 2019; Allen-Zhu et al., 2019; Arora et al., 2018)。知识蒸馏通过在大教师模型的监督下学习小学生模型,从而探究深度模型中参数的冗余性,用于推理(Bucilua et al., 2006; Ba and Caruana, 2014; Hinton et al., 2015; Urban et al., 2016),而知识蒸馏的关键问题是如何将知识从大教师模型转移到小学生模型。一般情况下,知识蒸馏的师生框架如图1所示。虽然在实践中取得了巨大的成功,但在理论或经验上理解知识提炼方法的工作并不多(Cheng et al., 2020; Phuong and Lampert, 2019; Cho and Hariharan, 2019)。具体来说,为了理解知识蒸馏的工作机制,Phuong和Lampert在深度线性分类器的情况下,从理论上证明了学习精馏学生网络快速收敛的泛化边界(Phuong和Lampert, 2019)。这一解释理论上回答了学生学习的内容和速度,并揭示了决定蒸馏成功的因素。蒸馏的成功依赖于数据几何、蒸馏目标的优化偏差和学生分类器的强单调性。Cheng等人量化了来自深度神经网络中间层的视觉概念知识,以解释知识蒸馏(Cheng et al., 2020)。Cho和Hariharan对知识蒸馏的有效性进行了详细的实证分析(Cho和Hariharan, 2019)。实证分析发现,由于模型容量的差距,较大的模型不一定是更好的老师(Mirzadeh et al., 2019),而精馏会对学生的学习产生不利影响。据我们所知,(Cho and Hariharan, 2019)忽略了对教师和学生之间不同知识、不同蒸馏和相互感情的经验评价。此外,通过实证分析,从标签平滑、教师和先验对最优输出层几何形状的预测置信度等角度探讨了对知识蒸馏的理解(Tang et al., 2020)。

模型压缩的知识蒸馏思想与人类的学习方案非常相似。为此,近年来的知识蒸馏方法不仅扩展到了师生学习(Hinton et al., 2015),还扩展到了相互学习(Zhang et al., 2018b)、自学(Yuan et al., 2019)、辅助教学(Mirzadeh et al., 2019)和终身学习(Zhai et al., 2019)。知识蒸馏的大部分扩展集中于压缩深度神经网络,因此轻量级的学生网络可以很容易地部署在诸如视觉识别、语音识别和自然语言处理(NLP)等应用程序中。此外,知识蒸馏中从一个模型到另一个模型的知识转移符号也可以扩展到其他任务,如对抗攻击(Papernot et al., 2016b)、数据增强(Lee et al., 2019a;Gordon和Duh, 2019),数据隐私和安全(Wang等,2019a)。

本文对知识蒸馏的研究进行了综述。本综述的主要目的是1) 全面概述知识蒸馏,包括动机的背景,基本符号和公式,以及几种典型知识,蒸馏和算法; 2) 全面回顾知识蒸馏的最新进展,包括理论、应用和在不同现实场景下的扩展; 3) 从知识迁移的不同角度,包括不同类型的知识、训练方案、知识提炼算法/结构和应用,阐述知识蒸馏的一些挑战和见解。本文组织概况如图2所示。具体地说,本文的其余部分结构如下。第二节给出了知识蒸馏的重要概念和常规模型。知识和蒸馏的种类分别在第3节和第4节中进行了总结。现有的关于知识提炼中的师生结构的研究在第5部分进行了说明。第6节对许多最新的知识蒸馏方法进行了全面的总结和介绍。知识蒸馏的广泛应用将在第7节的不同方面加以说明。第8节讨论了知识蒸馏中具有挑战性的问题和未来的方向。最后,在第9节给出结论。

成为VIP会员查看完整内容
0
89

深度神经网络最近展示了其解决复杂任务的惊人能力。如今的模型使用功能强大的GPU卡在数百万个示例上进行训练,能够可靠地对图像进行注释、翻译文本、理解口语或玩国际象棋或围棋等战略性游戏。此外,深度学习也将成为未来许多技术的组成部分,例如自动驾驶、物联网(IoT)或5G网络。特别是随着物联网的出现,智能设备的数量在过去几年里迅速增长。这些设备中有许多都配备了传感器,使它们能够以前所未有的规模收集和处理数据。这为深度学习方法提供了独特的机会。

然而,这些新的应用程序带有许多附加的约束和要求,这些约束和要求限制了当前模型的开箱即用。

1. 嵌入式设备、物联网设备和智能手机的内存和存储容量有限,能源资源有限. 像VGG-16这样的深度神经网络需要超过500 MB的内存来存储参数,执行单次向前传递需要15 gb的操作。很明显,这些模型的当前(未压缩的)形式不能在设备上使用。

2. 训练数据通常分布在设备上,由于隐私问题或有限的资源(带宽),无法简单地在中央服务器上收集. 由于只有少量数据点的模型的局部训练通常不太有希望,因此需要新的协作训练方案来将深度学习的能力引入这些分布式应用程序。

本教程将讨论最近提出的解决这两个问题的技术。我们将首先简要介绍深度学习,它的当前使用和今天的模型在计算和内存复杂性、能源效率和分布式环境方面的局限性。我们将强调解决这些问题的实际需要,并讨论实现这一目标的最新进展,包括ITU ML5G和MPEG AHG CNNMCD正在开展的标准化活动。

然后我们将进入神经网络压缩的话题。我们将首先简要介绍源编码和信息论的基本概念,包括速率失真理论、量化、熵编码和最小描述长度原则。这些概念需要形式化的神经网络压缩问题。然后我们将继续讨论压缩DNNs的具体技术。为此,我们将区分压缩过程的不同步骤,即剪枝和稀疏化、量化和熵编码。前两步是有损的,而最后一步是无损的。由于缩小尺寸并不是神经网络压缩的唯一目标(例如,快速推理、能源效率是其他目标),我们还将讨论有效推理的方法,包括最近提出的神经网络格式。最后,我们将介绍一个用例,即设备上的语音识别,演示如何在实际应用中使用压缩方法。

最后我们将介绍分布式学习的最新发展。我们提出了不同的分布式训练场景,并根据它们的通信特性进行了比较。接下来,我们将重点讨论联邦学习。我们列举了联邦学习中存在的挑战——通信效率、数据异构性、隐私、个性化、健壮性——并提出了解决这些挑战的方法。我们特别关注为减少分布式学习中的通信开销而提出的技术,并讨论集群化FL,这是一种与模型无关的分布式多任务优化的新方法。这里我们将强调本教程第一部分中介绍的概念的相似性,即稀疏化、量化和编码。

目录:

  1. 介绍
  • 目前使用的深度学习
  • 现有模型和新应用的实际局限性
  • 研究、工业和标准化方面的最新发展
  1. 神经网络压缩
  • 背景:资料编码、信息论
  • 修剪和稀疏化方法
  • 量化和定点推理
  • 神经网络格式
  • 用例研究:设备上的语音识别

3.问题 4. 休息时间 5. 分布式学习

  • 背景:SGD,学习理论
  • 联邦和分布式学习的基本概念
  • 减少通信开销和连接到NN压缩
  • 联邦学习和差异隐私
  • 集群联合学习
  1. 问题
成为VIP会员查看完整内容
0
55
小贴士
相关VIP内容
专知会员服务
15+阅读 · 2020年12月26日
专知会员服务
19+阅读 · 2020年12月11日
专知会员服务
13+阅读 · 2020年12月10日
专知会员服务
12+阅读 · 2020年10月13日
专知会员服务
21+阅读 · 2020年9月25日
专知会员服务
89+阅读 · 2020年6月14日
相关论文
Jian Wang,Junhao Liu,Wei Bi,Xiaojiang Liu,Kejing He,Ruifeng Xu,Min Yang
9+阅读 · 2019年12月16日
End-to-End Open-Domain Question Answering with BERTserini
Wei Yang,Yuqing Xie,Aileen Lin,Xingyu Li,Luchen Tan,Kun Xiong,Ming Li,Jimmy Lin
3+阅读 · 2019年9月18日
Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova
8+阅读 · 2019年5月24日
Temporal Deformable Convolutional Encoder-Decoder Networks for Video Captioning
Jingwen Chen,Yingwei Pan,Yehao Li,Ting Yao,Hongyang Chao,Tao Mei
3+阅读 · 2019年5月3日
Tianyi Zhang,Varsha Kishore,Felix Wu,Kilian Q. Weinberger,Yoav Artzi
5+阅读 · 2019年4月21日
Yang Liu
19+阅读 · 2019年3月25日
Video Captioning with Boundary-aware Hierarchical Language Decoding and Joint Video Prediction
Xiangxi Shi,Jianfei Cai,Jiuxiang Gu,Shafiq Joty
4+阅读 · 2018年7月8日
Zhaopeng Tu,Xiaojiang Liu,Lei Shu,Shuming Shi
6+阅读 · 2018年4月21日
Tu Vu,Baotian Hu,Tsendsuren Munkhdalai,Hong Yu
3+阅读 · 2018年4月20日
Zhixing Tan,Mingxuan Wang,Jun Xie,Yidong Chen,Xiaodong Shi
13+阅读 · 2017年12月5日
Top