近年来,规模在自然语言处理的快速发展中发挥了核心作用。虽然基准测试被越来越大的模型所主导,但高效的硬件使用对于它们的广泛采用和该领域的进一步发展至关重要。在这个尖端的教程中,我们将概括自然语言处理的最先进技术。在建立这些基础之后,我们将介绍广泛的提高效率的技术,包括知识蒸馏、量化、修剪、更高效的架构,以及案例研究和实际实现技巧。

https://2020.emnlp.org/tutorials

成为VIP会员查看完整内容
0
24

相关内容

涵盖了主要技术,在压缩、扩展中的使用,以及许多未预料到的用例(例如攻击、NAT、传输)

https://slideslive.com/38940102

成为VIP会员查看完整内容
0
18

EMNLP(Conference on Empirical Methods in Natural Language Processing)是计算语言学和自然语言处理领域的顶级国际会议,由ACL旗下SIGDAT组织,每年举办一次,Google Scholar计算语言学刊物指标中排名第二,是CCF-B类推荐会议。今年EMNLP 2020将于2020年11月16日至20日以在线会议的形式举办。本篇为大家带来EMNLP2020在线Tutorial《Interpreting Predictions of NLP Models》教程,系统性讲解了自然语言处理模型可解释性预测,不可错过!

虽然神经NLP模型具有高度的表示学习能力和良好性能,但它们也会以违反直觉的方式系统性失败,并且在决策过程中不透明。本教程将提供可解释技术的背景知识,即可解释NLP模型预测的方法。我们将首先将具体实例的解释置于理解模型的其他方法的上下文中(例如,探测,数据集分析)。接下来,我们将全面研究具体例子的解释,包括显著性映射、输入扰动(例如LIME、输入减少)、对抗性攻击和影响函数。除了这些描述之外,我们还将介绍为各种NLP任务创建和可视化解释的源代码。最后,我们将讨论该领域的开放问题,如评价、扩展和改进解释方法。

https://github.com/Eric-Wallace/interpretability-tutorial-emnlp2020/

成为VIP会员查看完整内容
0
21

自然语言处理中的预训练模型

论文:【复旦大学】最新《预训练语言模型》2020综述论文大全,50+PTMs分类体系,25页pdf205篇参考文献

目前预训练模型在自然语言处理领域取得了广泛的成功。本报告的内容主要涵盖以下4部分内容:1)预训练模型的原理介绍,包括模型结构、学习准则、发展历程等;2)预训练模型的迁移方法:包括如何通过任务转换、多步迁移、改进精调等方法来进一步提高预训练模型在下游任务上的性能;3)预训练模型的改进模型:包括知识嵌入模型、多模态模型、多语言模型、语言特定模型、领域特定模型和模型压缩等;4)对预训练模型及其未来发展趋势进行展望。

视频: https://hub.baai.ac.cn/view/3868

成为VIP会员查看完整内容
0
29

自然语言处理中的预训练模型

论文:【复旦大学】最新《预训练语言模型》2020综述论文大全,50+PTMs分类体系,25页pdf205篇参考文献

目前预训练模型在自然语言处理领域取得了广泛的成功。本报告的内容主要涵盖以下4部分内容:1)预训练模型的原理介绍,包括模型结构、学习准则、发展历程等;2)预训练模型的迁移方法:包括如何通过任务转换、多步迁移、改进精调等方法来进一步提高预训练模型在下游任务上的性能;3)预训练模型的改进模型:包括知识嵌入模型、多模态模型、多语言模型、语言特定模型、领域特定模型和模型压缩等;4)对预训练模型及其未来发展趋势进行展望。

成为VIP会员查看完整内容
0
45

深度神经网络最近展示了其解决复杂任务的惊人能力。如今的模型使用功能强大的GPU卡在数百万个示例上进行训练,能够可靠地对图像进行注释、翻译文本、理解口语或玩国际象棋或围棋等战略性游戏。此外,深度学习也将成为未来许多技术的组成部分,例如自动驾驶、物联网(IoT)或5G网络。特别是随着物联网的出现,智能设备的数量在过去几年里迅速增长。这些设备中有许多都配备了传感器,使它们能够以前所未有的规模收集和处理数据。这为深度学习方法提供了独特的机会。

然而,这些新的应用程序带有许多附加的约束和要求,这些约束和要求限制了当前模型的开箱即用。

1. 嵌入式设备、物联网设备和智能手机的内存和存储容量有限,能源资源有限. 像VGG-16这样的深度神经网络需要超过500 MB的内存来存储参数,执行单次向前传递需要15 gb的操作。很明显,这些模型的当前(未压缩的)形式不能在设备上使用。

2. 训练数据通常分布在设备上,由于隐私问题或有限的资源(带宽),无法简单地在中央服务器上收集. 由于只有少量数据点的模型的局部训练通常不太有希望,因此需要新的协作训练方案来将深度学习的能力引入这些分布式应用程序。

本教程将讨论最近提出的解决这两个问题的技术。我们将首先简要介绍深度学习,它的当前使用和今天的模型在计算和内存复杂性、能源效率和分布式环境方面的局限性。我们将强调解决这些问题的实际需要,并讨论实现这一目标的最新进展,包括ITU ML5G和MPEG AHG CNNMCD正在开展的标准化活动。

然后我们将进入神经网络压缩的话题。我们将首先简要介绍源编码和信息论的基本概念,包括速率失真理论、量化、熵编码和最小描述长度原则。这些概念需要形式化的神经网络压缩问题。然后我们将继续讨论压缩DNNs的具体技术。为此,我们将区分压缩过程的不同步骤,即剪枝和稀疏化、量化和熵编码。前两步是有损的,而最后一步是无损的。由于缩小尺寸并不是神经网络压缩的唯一目标(例如,快速推理、能源效率是其他目标),我们还将讨论有效推理的方法,包括最近提出的神经网络格式。最后,我们将介绍一个用例,即设备上的语音识别,演示如何在实际应用中使用压缩方法。

最后我们将介绍分布式学习的最新发展。我们提出了不同的分布式训练场景,并根据它们的通信特性进行了比较。接下来,我们将重点讨论联邦学习。我们列举了联邦学习中存在的挑战——通信效率、数据异构性、隐私、个性化、健壮性——并提出了解决这些挑战的方法。我们特别关注为减少分布式学习中的通信开销而提出的技术,并讨论集群化FL,这是一种与模型无关的分布式多任务优化的新方法。这里我们将强调本教程第一部分中介绍的概念的相似性,即稀疏化、量化和编码。

目录:

  1. 介绍
  • 目前使用的深度学习
  • 现有模型和新应用的实际局限性
  • 研究、工业和标准化方面的最新发展
  1. 神经网络压缩
  • 背景:资料编码、信息论
  • 修剪和稀疏化方法
  • 量化和定点推理
  • 神经网络格式
  • 用例研究:设备上的语音识别

3.问题 4. 休息时间 5. 分布式学习

  • 背景:SGD,学习理论
  • 联邦和分布式学习的基本概念
  • 减少通信开销和连接到NN压缩
  • 联邦学习和差异隐私
  • 集群联合学习
  1. 问题
成为VIP会员查看完整内容
0
48
小贴士
相关论文
Jimmy Lin,Rodrigo Nogueira,Andrew Yates
3+阅读 · 10月13日
Sevinj Yolchuyeva,Géza Németh,Bálint Gyires-Tóth
5+阅读 · 4月14日
Heterogeneous Graph Transformer
Ziniu Hu,Yuxiao Dong,Kuansan Wang,Yizhou Sun
12+阅读 · 3月3日
Seongjun Yun,Minbyul Jeong,Raehyun Kim,Jaewoo Kang,Hyunwoo J. Kim
6+阅读 · 2月5日
Yang Liu,Mirella Lapata
4+阅读 · 2019年8月22日
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Zihang Dai,Zhilin Yang,Yiming Yang,Jaime Carbonell,Quoc V. Le,Ruslan Salakhutdinov
8+阅读 · 2019年6月2日
Naihan Li,Shujie Liu,Yanqing Liu,Sheng Zhao,Ming Liu,Ming Zhou
3+阅读 · 2018年11月13日
End-to-end Speech Recognition with Word-based RNN Language Models
Takaaki Hori,Jaejin Cho,Shinji Watanabe
3+阅读 · 2018年8月8日
Kai Song,Yue Zhang,Min Zhang,Weihua Luo
4+阅读 · 2018年1月11日
Jing Li,Pengjie Ren,Zhumin Chen,Zhaochun Ren,Jun Ma
5+阅读 · 2017年11月13日
Top