自然语言处理中的自注意力模型

目前自注意力模型(比如Transformer)在自然语言处理领域取得了广泛的成功。本报告主要介绍自注意力模型方面的一些工作,主要涵盖两部分内容:1)Transformer及其改进模型:通过分析Transformer的基本原理和优缺点,提出一些改进模型Star-Transformer、Multi-Scale Transformer、BP-Transformer等。2)Transformer模型的应用:将Transformer模型应用在文本分类、实体名识别等自然语言任务上,并通过针对性的改进来进一步提高性能。最后,对Transformer模型及其未来发展趋势进行展望。

成为VIP会员查看完整内容
0
59

相关内容

自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

自然语言处理中的预训练模型

论文:【复旦大学】最新《预训练语言模型》2020综述论文大全,50+PTMs分类体系,25页pdf205篇参考文献

目前预训练模型在自然语言处理领域取得了广泛的成功。本报告的内容主要涵盖以下4部分内容:1)预训练模型的原理介绍,包括模型结构、学习准则、发展历程等;2)预训练模型的迁移方法:包括如何通过任务转换、多步迁移、改进精调等方法来进一步提高预训练模型在下游任务上的性能;3)预训练模型的改进模型:包括知识嵌入模型、多模态模型、多语言模型、语言特定模型、领域特定模型和模型压缩等;4)对预训练模型及其未来发展趋势进行展望。

成为VIP会员查看完整内容
0
31

表示学习(representation learning), 又称表征学习,是指将输入数据转化成 适用于机器学习形式的过程。通常地,机器学习的性能依赖于对数据表示的选 择,一个好的表示可以使得模型对输入数据进行更好的理解。近年来,神经网络 的兴起,使得我们可以自动地对输入数据进行特征抽取。这极大推动了表示学习 的发展,并给我们带来了进一步探究的可能性。

一般地,表示学习的研究可以按照不同角度进行划分:从学习方式上,可以 分为有监督学习和无监督学习;从输入数据模态上,可以分为文本表示、图像表 示以及语音表示;从共享独立性上,可以分为共享表示和私有表示。在自然语言 处理中,使用深度学习技术(即深度神经网络)对文本进行表示学习已经成为一 个很有价值的研究方向。本文工作围绕着以下问题展开:1)对于不同粒度的文 本(词语、句子、句对),如何设计合理的结构,使得模型可以学习到适合最终任 务的表示?深度学习的到来使得自然语言处理中的研究工作由原来的特征工程 (feature engineering) 过渡到了现在的结构工程 (architecture engineering) ,而对于 文本的表示学习,首先要解决的最基本问题就是寻找合适的归纳偏置 (inductive bias),使得模型可以更好地对输入文本进行编码。而本文分别针对不同粒度的文 本信号,进行相应的网络结构探索,希望找到更适合下游任务的结构偏置。2)如 何进行针对性的迁移学习?有针对性地进行迁移是指我们要对迁移的知识“按 需分配”,这就要求我们学习的知识应该具备可迁移性,此外,我们还要对已有 的知识进行可理解分析,从而可以分离我们真正需要的知识,最终实现知识的定 向迁移。对于以上两个亟待解决的问题,本文通过两个方面,九个章节进行递进 式探讨,其贡献总结如下:

一方面,对于不同粒度文本的表示学习,本文分别探索了最适合下游任务的 归纳偏置,并且利用这些归纳偏置设计新的模型,这些模型在主流的数据集上都 取得了当时最好的效果。

    1. 词语: 词语表示学习的研究是深度神经网络技术最先触及的领域。经典的 基于神经网络的分布式语义表示学习方法可以将任意词映射到一个低维的 向量空间,然而这种表示往往与上下文独立,无法处理一词多义的现象。针 对这个问题,我们提出了融入 “主题” 信息的神经张量词语表示学习模型, 该模型最大的特点是可以学习到与上下文相关的词表示,从而缓解一词多 义现象带来的语义消歧问题。
    1. 句子:基于深度神经网络的句子表示学习是一个重要的研究任务。在句子 建模的任务里,我们的研究围绕着三个问题展开:如何建模包含习语的句 子?如何解决语义合成的多样性与函数单一性导致的网络表示能力不足的 问题?如何动态学习句子的结构而不是预先指定?针对以上问题,我们分 别提出了基于树结构的自适应语义合成网络、动态语义合成网络、和基于 图的语境化网络。这些模型分别引入了不同的并且适用于当前任务的结构 偏置。
    1. 句对:句对的表示学习在自然语言处理中有很广泛的应用场景,如语义匹 配,自动问答等。解决这个任务的关键在于如何建模两个句子之间复杂的 交互关系。这里我们提出了一种基于多维长短时记忆网络的学习框架,可 以建立两个句子之间强交互关系。另一方面,我们提出学习具有特殊性质的文本表示,这为我们实现针对性迁 移做了铺垫。具体说来,我们通过利用对抗学习(adversarial learning)以及元学 习(meta learning)方式,探索了如何学习具有可迁移性、可分离性,可理解性 的文本表示。
    1. 可迁移性:深度学习技术不仅可以自动提取出有用的特征,它的另一个迷 人之处在于可以对已经学习好的特征进行迁移学习。本文以循环神经网络 为原型,提出了三种适用于文本序列可迁移性学习的框架。
    1. 可分解性:一个好的表示应该可以结构化,并且按照功能属性进行分离,这 样我们才能更好地进行迁移使用。本文中,为了将不同任务之间共享和私有的特征实现分离,我们将对抗学习的思想引入到多任务学习中,该模型 可以实现对共享空间的净化,实现共享-私有特征的正交分离。
    1. 可理解性:很多时候,深度模型取得好结果是以牺牲我们对模型的理解能 力为代价的。那么对于学习到的表示,如何对学习的知识进行可理解分析?本文通过动态建立图神经网络实现了一种可理解模型的学习。

关键词:深度学习;语义表示学习;自然语言处理;归纳偏置;知识迁移

成为VIP会员查看完整内容
0
52

Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。Transformer是:“首个完全抛弃RNN的recurrence,CNN的convolution,仅用attention来做特征抽取的模型。“ 本文简介了Transformer模型。

成为VIP会员查看完整内容
0
22

题目

自然语言处理中的迁移学习,41 页PPT

关键字

自然语言处理,迁移学习

简介

本教程,将系统地介绍在自然语言处理中,迁移学习的应用。

内容

  • 概念与历史:什么是迁移学习?
  • 最先进的迁移学习方法:预培训和适应
  • Hugging Face and Transformers
  • 当前迁移学习的趋势、限制和开放性问题
  • Takeaways
成为VIP会员查看完整内容
0
46

题目: 自然语言处理中的表示学习进展:从Transfomer到BERT

报告人: 邱锡鹏 博士 复旦大学

摘要: 目前全连接自注意力模型(比如Transformer)在自然语言处理领域取得了广泛的成功。本报告主要介绍我们在自注意力模型方面的一些工作,主要涵盖两部分内容:1)Transformer及其改进模型:通过分析Transformer的基本原理和优缺点,提出一些改进模型Star-Transformer、Multi-Scale Transformer等。2)预训练的Transformer模型的迁移方法:虽然预训练的Transformer模型(比如BERT、GPT等)在很多自然语言任务上都取得了非常好的性能,我们通过任务转换、继续预训练、多任务学习等方法来进一步提高其迁移能力。最后,对Transformer模型及其未来发展趋势进行展望。

成为VIP会员查看完整内容
20191104-MLA2019-自然语言处理中的表示学习进展:从Transfomer到BERT.pdf
0
51

近年来,以机器学习、知识图谱为代表的人工智能技术逐渐变得普及。从车牌识别、人脸识别、语音识别、智能问答、推荐系统到自动驾驶,人们在日常生活中都可能有意无意地使用到了人工智能技术。这些技术的背后都离不开人工智能领域研究者们的长期努力。特别是最近这几年,得益于数据的增多、计算能力的增强、学习算法的成熟以及应用场景的丰富,越来越多的人开始关注这一个“崭新”的研究领域:深度学习。深度学习以神经网络为主要模型,一开始用来解决机器学习中的表示学习问题。但是由于其强大的能力,深度学习越来越多地用来解决一些通用人工智能问题,比如推理、决策等。目前,深度学习技术在学术界和工业界取得了广泛的成功,受到高度重视,并掀起新一轮的人工智能热潮。

本课程主要介绍神经网络与深度学习中的基础知识、主要模型(前馈网络、卷积网络、循环网络等)以及在计算机视觉、自然语言处理等领域的应用。

成为VIP会员查看完整内容
0
27

神经网络与深度学习,复旦大学邱锡鹏老师。近年来,以机器学习、知识图谱为代表的人工智能技术逐渐变得普及。从车牌识别、人脸识别、语音识别、智能问答、推荐系统到自动驾驶,人们在日常生活中都可能有意无意地使用到了人工智能技术。这些技术的背后都离不开人工智能领域研究者们的长期努力。特别是最近这几年,得益于数据的增多、计算能力的增强、学习算法的成熟以及应用场景的丰富,越来越多的人开始关注这一个“崭新”的研究领域:深度学习。深度学习以神经网络为主要模型,一开始用来解决机器学习中的表示学习问题。但是由于其强大的能力,深度学习越来越多地用来解决一些通用人工智能问题,比如推理、决策等。目前,深度学习技术在学术界和工业界取得了广泛的成功,受到高度重视,并掀起新一轮的人工智能热潮。

本课程主要介绍神经网络与深度学习中的基础知识、主要模型(前馈网络、卷积网络、循环网络等)以及在计算机视觉、自然语言处理等领域的应用。

本书的写作目的是使得读者能够掌握神经网络与深度学习技术的基本原理,知其然还要知其所以然。全书共 15 章。第 1 章是绪论,介绍人工智能、机器学习、深度学习的概要,使读者对相关知识进行全面的了解。第2、3章介绍机器学习的基础知识。第4、5、6章分别讲述三种主要的神经网络模型:前馈神经 网络、卷积神经网络和循环神经网络。第7章介绍神经网络的优化与正则化方法。第8章介绍神经网络中的注意力机制和外部记忆。第9章简要介绍一些无监督学习方法。第10章介绍一些模型独立的机器学习方法:集成学习、自训练、协同训练多任务学习、迁移学习、终身学习、元学习等,这些都是目前深度学习的难点和热点问题。第11章介绍概率图模型的基本概念,为后面的章节进行铺垫。第12章介绍两种早期的深度学习模型:玻尔兹曼机和深度信念网络。第13章介绍最近两年发展十分迅速的深度生成模型:变分自编码器和生成对抗网络。第14章介绍深度强化学习的知识。第15章介绍应用十分广泛的序列生成模型。

  • 绪论
  • 机器学习概述
  • 线性模型
  • 前馈神经网络
  • 卷积神经网络
  • 循环神经网络
  • 网络优化与正则化
  • 注意力机制与外部记忆
  • 无监督学习
  • 模型独立的学习方式
  • 概率图模型
  • 深度信念网络
  • 深度生成模型
  • 深度强化学习
  • 序列生成模型 一个过时版本:词嵌入与语言模型
  • 数学基础
成为VIP会员查看完整内容
0
41
小贴士
相关论文
Qipeng Guo,Xipeng Qiu,Pengfei Liu,Xiangyang Xue,Zheng Zhang
3+阅读 · 2019年12月2日
Mengting Hu,Shiwan Zhao,Honglei Guo,Renhong Cheng,Zhong Su
5+阅读 · 2019年9月25日
Yiming Cui,Wanxiang Che,Ting Liu,Bing Qin,Ziqing Yang,Shijin Wang,Guoping Hu
9+阅读 · 2019年6月19日
How to Fine-Tune BERT for Text Classification?
Chi Sun,Xipeng Qiu,Yige Xu,Xuanjing Huang
10+阅读 · 2019年5月14日
Yang Liu
17+阅读 · 2019年3月25日
Junlang Zhan,Hai Zhao
3+阅读 · 2019年3月1日
Contextualized Non-local Neural Networks for Sequence Learning
Pengfei Liu,Shuaichen Chang,Xuanjing Huang,Jian Tang,Jackie Chi Kit Cheung
3+阅读 · 2018年11月21日
Shiyu Zhou,Linhao Dong,Shuang Xu,Bo Xu
3+阅读 · 2018年6月4日
Top