自然语言处理中的自注意力模型

目前自注意力模型(比如Transformer)在自然语言处理领域取得了广泛的成功。本报告主要介绍自注意力模型方面的一些工作,主要涵盖两部分内容:1)Transformer及其改进模型:通过分析Transformer的基本原理和优缺点,提出一些改进模型Star-Transformer、Multi-Scale Transformer、BP-Transformer等。2)Transformer模型的应用:将Transformer模型应用在文本分类、实体名识别等自然语言任务上,并通过针对性的改进来进一步提高性能。最后,对Transformer模型及其未来发展趋势进行展望。

成为VIP会员查看完整内容
0
89

相关内容

自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

哈工大讯飞联合实验室(HFL)资深级研究员、研究主管崔一鸣受邀在NLPCC 2020会议做题为《Revisiting Pre-trained Models for Natural Language Processing》的讲习班报告(Tutorial),介绍了预训练语言模型的发展历程以及近期的研究热点。本期推送文末提供了报告的下载方式。

NLPCC 2020 Tutorials:

http://tcci.ccf.org.cn/conference/2020/tutorials.php

预训练语言模型(PLM)已经成为最近自然语言处理研究的基本元素。在本教程中,我们将回顾文本表示的技术进展,即从一个热点嵌入到最近的PLMs。我们将介绍几种流行的PLMs(如BERT、XLNet、RoBERTa、ALBERT、ELECTRA等)及其技术细节和应用。另一方面,我们也将介绍中国plm的各种努力。在演讲的最后,我们将分析目前PLMs的不足之处,并展望未来的研究方向。

成为VIP会员查看完整内容
0
31

自然语言处理中的预训练模型

论文:【复旦大学】最新《预训练语言模型》2020综述论文大全,50+PTMs分类体系,25页pdf205篇参考文献

目前预训练模型在自然语言处理领域取得了广泛的成功。本报告的内容主要涵盖以下4部分内容:1)预训练模型的原理介绍,包括模型结构、学习准则、发展历程等;2)预训练模型的迁移方法:包括如何通过任务转换、多步迁移、改进精调等方法来进一步提高预训练模型在下游任务上的性能;3)预训练模型的改进模型:包括知识嵌入模型、多模态模型、多语言模型、语言特定模型、领域特定模型和模型压缩等;4)对预训练模型及其未来发展趋势进行展望。

成为VIP会员查看完整内容
0
60

摘要: 近年来,随着深度学习的快速发展,面向自然语言处理领域的预训练技术获得了长足的进步。早期的自然语言处理领域长期使用Word2Vec等词向量方法对文本进行编码,这些词向量方法也可看作静态的预训练技术。然而,这种上下文无关的文本表示给其后的自然语言处理任务带来的提升非常有限,并且无法解决一词多义问题。ELMo提出了一种上下文相关的文本表示方法,可有效处理多义词问题。其后,GPT和BERT等预训练语言模型相继被提出,其中BERT模型在多个典型下游任务上有了显著的效果提升,极大地推动了自然语言处理领域的技术发展,自此便进入了动态预训练技术的时代。此后,基于BERT的改进模型、XLNet等大量预训练语言模型不断涌现,预训练技术已成为自然语言处理领域不可或缺的主流技术。文中首先概述预训练技术及其发展历史,并详细介绍自然语言处理领域的经典预训练技术,包括早期的静态预训练技术和经典的动态预训练技术;然后简要梳理一系列新式的有启发意义的预训练技术,包括基于BERT的改进模型和XLNet;在此基础上,分析目前预训练技术研究所面临的问题;最后对预训练技术的未来发展趋势进行展望。

成为VIP会员查看完整内容
0
56

题目

自然语言处理中的迁移学习,41 页PPT

关键字

自然语言处理,迁移学习

简介

本教程,将系统地介绍在自然语言处理中,迁移学习的应用。

内容

  • 概念与历史:什么是迁移学习?
  • 最先进的迁移学习方法:预培训和适应
  • Hugging Face and Transformers
  • 当前迁移学习的趋势、限制和开放性问题
  • Takeaways
成为VIP会员查看完整内容
0
57

台湾交通大学的Jen-Tzung Chien教授在WSDN 2020会议上通过教程《Deep Bayesian Data Mining》介绍了深度贝叶斯数据挖掘的相关知识,涵盖了贝叶斯学习、深度序列学习、深度贝叶斯挖掘和学习等内容。

Jen-Tzung Chien教授在WSDM 2020的教程《Deep Bayesian Data Mining》(《深度贝叶斯数据挖掘》)介绍了面向自然语言的深度贝叶斯挖掘和学习,包括了它的基础知识和进展,以及它无处不在的应用,这些应用包括语音识别、文档摘要、文本分类、文本分割、信息抽取、图像描述生成、句子生成、对话控制、情感分类、推荐系统、自动问答和机器翻译等。

从传统上,“深度学习”被认为是一个学习过程,过程中的推断和优化都使用基于实数的判别模型。然而,从大量语料中提取出的词汇、句子、实体、行为和文档的“语义结构”在数学逻辑或计算机程序中可能不能很好地被这种方式表达或正确地优化。自然语言的离散或连续潜在变量模型中的“分布函数”可能不能被正确分解或估计。

该教程介绍了统计模型和神经网络的基础,并聚焦于一系列先进的贝叶斯模型和深度模型,包括层次狄利克雷过程、中国餐馆过程、递归神经网络、长短期记忆网络、序列到序列模型、变分自编码器、生成式对抗网络、策略神经网络等。教程还介绍了增强的先验/后验表示。教程展示了这些模型是如何连接的,以及它们为什么适用于自然语言中面向符号和复杂模式的各种应用程序。

变分推断和采样被提出解决解决复杂模型的优化问题。词和句子的嵌入、聚类和联合聚类被语言和语义约束合并。针对深度贝叶斯挖掘、搜索、学习和理解中的不同问题,一系列的案例研究、任务和应用被提出。最后,教程指出一些未来研究的方向和展望。教程旨在向初学者介绍深度贝叶斯学习中的主要主题,激发和解释它对数据挖掘和自然语言理解正在浮现的重要性,并提出一种结合不同的机器学习工作的新的综合方法。

教程的内容大致如下:

  • 简介
    • 动机和背景
    • 概率模型
    • 神经网络
  • 贝叶斯学习
    • 推断和优化
    • 变分贝叶斯推断
    • 蒙特卡罗马尔科夫链推断
  • 深度序列学习
    • 深度非展开主题模型
    • 门递归神经网络
    • 贝叶斯递归神经网络
    • 记忆增强神经网络
    • 序列到序列学习
    • 卷积神经网络
    • 扩增神经网络
    • 基于Transformer的注意力网络
  • 深度贝叶斯挖掘和学习
    • 变分自编码器
    • 变分递归自编码器
    • 层次变分自编码器
    • 随机递归神经网络
    • 正则递归神经网络
    • 跳跃递归神经网络
    • 马尔科夫递归神经网络
    • 时间差分变分自编码器
    • 未来挑战和发展
  • 总结和未来趋势

完整教程下载

请关注专知公众号(点击上方蓝色专知关注) 后台回复“DBDM20” 就可以获取完整教程PDF的下载链接~

教程部分内容如下所示:

参考链接:

http://chien.cm.nctu.edu.tw/home/wsdm-tutorial/

-END- 专 · 知

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取更多AI知识资料!

欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询!

请加专知小助手微信(扫一扫如下二维码添加),获取专知VIP会员码,加入专知人工智能主题群,咨询技术商务合作~

点击“阅读原文”,了解注册使用专知

成为VIP会员查看完整内容
0
99

教程题目:Deep Bayesian Natural Language Processing

教程简介

这个教学讲座将会介绍用于自然语言处理的深度贝叶斯学习的发展,以及它在语音识别、文本总结、文本分类、文本分割、信息提取、图像描述生成、句子生成、对话控制、情感分类、推荐系统、问答、机器翻译等等许多任务中的广泛应用。传统上,“深度学习”被认为是一个基于实值确定性模型进行推理或优化的学习过程。从大量词汇中提取的词汇、句子、实体、动作和文档的“语义结构”在数学逻辑或计算机程序中可能不能很好地表达或正确地优化。自然语言的离散或连续潜在变量模型中的“分布函数”可能没有被正确分解或估计。

本教程介绍了统计模型和神经网络的基础知识,并将重点讲解一系列高级的贝叶斯模型以及深度模型。这些模型之间的联系、能在自然语言的许多符号化表示和复杂模式中发挥作用的原因也会得到介绍。我们将介绍这些模型是如何连接的,以及它们为什么适用于自然语言中符号和复杂模式的各种应用程序。

为解决复杂模型的优化问题,提出了变分推理和抽样方法。词和句子的嵌入、聚类和共聚被语言和语义约束合并。提出了一系列的案例研究来解决深度贝叶斯学习和理解中的不同问题。最后,指出了一些未来研究的方向和展望。

组织者:

Jen-Tzung Chien在台湾新竹国立清华大学取得电机工程博士学位。现任职于台湾新竹国立交通大学电子及电脑工程学系及电脑科学系讲座教授。2010年,他担任IBM沃森研究中心的客座教授。他的研究兴趣包括机器学习、深度学习、自然语言处理和计算机视觉。在2011年获得了IEEE自动语音识别和理解研讨会的最佳论文奖,并在2018年获得了AAPM Farrington Daniels奖。2015年,剑桥大学出版社出版《贝叶斯语音与语言处理》;2018年,学术出版社出版《源分离与机器学习》。他目前是IEEE信号处理技术委员会机器学习的当选成员。

成为VIP会员查看完整内容
[2019] ACL tutorial-Deep Bayesian Natural Language Processing.pdf
0
36

题目: 自然语言处理中的表示学习进展:从Transfomer到BERT

报告人: 邱锡鹏 博士 复旦大学

摘要: 目前全连接自注意力模型(比如Transformer)在自然语言处理领域取得了广泛的成功。本报告主要介绍我们在自注意力模型方面的一些工作,主要涵盖两部分内容:1)Transformer及其改进模型:通过分析Transformer的基本原理和优缺点,提出一些改进模型Star-Transformer、Multi-Scale Transformer等。2)预训练的Transformer模型的迁移方法:虽然预训练的Transformer模型(比如BERT、GPT等)在很多自然语言任务上都取得了非常好的性能,我们通过任务转换、继续预训练、多任务学习等方法来进一步提高其迁移能力。最后,对Transformer模型及其未来发展趋势进行展望。

成为VIP会员查看完整内容
20191104-MLA2019-自然语言处理中的表示学习进展:从Transfomer到BERT.pdf
0
67

神经网络与深度学习,复旦大学邱锡鹏老师。近年来,以机器学习、知识图谱为代表的人工智能技术逐渐变得普及。从车牌识别、人脸识别、语音识别、智能问答、推荐系统到自动驾驶,人们在日常生活中都可能有意无意地使用到了人工智能技术。这些技术的背后都离不开人工智能领域研究者们的长期努力。特别是最近这几年,得益于数据的增多、计算能力的增强、学习算法的成熟以及应用场景的丰富,越来越多的人开始关注这一个“崭新”的研究领域:深度学习。深度学习以神经网络为主要模型,一开始用来解决机器学习中的表示学习问题。但是由于其强大的能力,深度学习越来越多地用来解决一些通用人工智能问题,比如推理、决策等。目前,深度学习技术在学术界和工业界取得了广泛的成功,受到高度重视,并掀起新一轮的人工智能热潮。

本课程主要介绍神经网络与深度学习中的基础知识、主要模型(前馈网络、卷积网络、循环网络等)以及在计算机视觉、自然语言处理等领域的应用。

本书的写作目的是使得读者能够掌握神经网络与深度学习技术的基本原理,知其然还要知其所以然。全书共 15 章。第 1 章是绪论,介绍人工智能、机器学习、深度学习的概要,使读者对相关知识进行全面的了解。第2、3章介绍机器学习的基础知识。第4、5、6章分别讲述三种主要的神经网络模型:前馈神经 网络、卷积神经网络和循环神经网络。第7章介绍神经网络的优化与正则化方法。第8章介绍神经网络中的注意力机制和外部记忆。第9章简要介绍一些无监督学习方法。第10章介绍一些模型独立的机器学习方法:集成学习、自训练、协同训练多任务学习、迁移学习、终身学习、元学习等,这些都是目前深度学习的难点和热点问题。第11章介绍概率图模型的基本概念,为后面的章节进行铺垫。第12章介绍两种早期的深度学习模型:玻尔兹曼机和深度信念网络。第13章介绍最近两年发展十分迅速的深度生成模型:变分自编码器和生成对抗网络。第14章介绍深度强化学习的知识。第15章介绍应用十分广泛的序列生成模型。

  • 绪论
  • 机器学习概述
  • 线性模型
  • 前馈神经网络
  • 卷积神经网络
  • 循环神经网络
  • 网络优化与正则化
  • 注意力机制与外部记忆
  • 无监督学习
  • 模型独立的学习方式
  • 概率图模型
  • 深度信念网络
  • 深度生成模型
  • 深度强化学习
  • 序列生成模型 一个过时版本:词嵌入与语言模型
  • 数学基础
成为VIP会员查看完整内容
0
55
小贴士
相关论文
Yile Wang,Leyang Cui,Yue Zhang
0+阅读 · 2020年10月15日
Cunliang Kong,Liner Yang,Tianzuo Zhang,Qinan Fan,Zhenghao Liu,Yun Chen,Erhong Yang
0+阅读 · 2020年10月12日
Chengyi Wang,Yu Wu,Shujie Liu,Ming Zhou,Zhenglu Yang
3+阅读 · 2020年4月21日
Shuyan Zhou,Shruti Rijhawani,John Wieting,Jaime Carbonell,Graham Neubig
7+阅读 · 2020年3月3日
K-BERT: Enabling Language Representation with Knowledge Graph
Weijie Liu,Peng Zhou,Zhe Zhao,Zhiruo Wang,Qi Ju,Haotang Deng,Ping Wang
15+阅读 · 2019年9月17日
Qian Chen,Zhu Zhuo,Wen Wang
9+阅读 · 2019年2月28日
Multi-Task Deep Neural Networks for Natural Language Understanding
Xiaodong Liu,Pengcheng He,Weizhu Chen,Jianfeng Gao
3+阅读 · 2019年1月31日
Antoine J. -P. Tixier
10+阅读 · 2018年8月30日
Zhenpeng Chen,Sheng Shen,Ziniu Hu,Xuan Lu,Qiaozhu Mei,Xuanzhe Liu
6+阅读 · 2018年6月7日
Top