表示学习(representation learning), 又称表征学习,是指将输入数据转化成 适用于机器学习形式的过程。通常地,机器学习的性能依赖于对数据表示的选 择,一个好的表示可以使得模型对输入数据进行更好的理解。近年来,神经网络 的兴起,使得我们可以自动地对输入数据进行特征抽取。这极大推动了表示学习 的发展,并给我们带来了进一步探究的可能性。

一般地,表示学习的研究可以按照不同角度进行划分:从学习方式上,可以 分为有监督学习和无监督学习;从输入数据模态上,可以分为文本表示、图像表 示以及语音表示;从共享独立性上,可以分为共享表示和私有表示。在自然语言 处理中,使用深度学习技术(即深度神经网络)对文本进行表示学习已经成为一 个很有价值的研究方向。本文工作围绕着以下问题展开:1)对于不同粒度的文 本(词语、句子、句对),如何设计合理的结构,使得模型可以学习到适合最终任 务的表示?深度学习的到来使得自然语言处理中的研究工作由原来的特征工程 (feature engineering) 过渡到了现在的结构工程 (architecture engineering) ,而对于 文本的表示学习,首先要解决的最基本问题就是寻找合适的归纳偏置 (inductive bias),使得模型可以更好地对输入文本进行编码。而本文分别针对不同粒度的文 本信号,进行相应的网络结构探索,希望找到更适合下游任务的结构偏置。2)如 何进行针对性的迁移学习?有针对性地进行迁移是指我们要对迁移的知识“按 需分配”,这就要求我们学习的知识应该具备可迁移性,此外,我们还要对已有 的知识进行可理解分析,从而可以分离我们真正需要的知识,最终实现知识的定 向迁移。对于以上两个亟待解决的问题,本文通过两个方面,九个章节进行递进 式探讨,其贡献总结如下:

一方面,对于不同粒度文本的表示学习,本文分别探索了最适合下游任务的 归纳偏置,并且利用这些归纳偏置设计新的模型,这些模型在主流的数据集上都 取得了当时最好的效果。

    1. 词语: 词语表示学习的研究是深度神经网络技术最先触及的领域。经典的 基于神经网络的分布式语义表示学习方法可以将任意词映射到一个低维的 向量空间,然而这种表示往往与上下文独立,无法处理一词多义的现象。针 对这个问题,我们提出了融入 “主题” 信息的神经张量词语表示学习模型, 该模型最大的特点是可以学习到与上下文相关的词表示,从而缓解一词多 义现象带来的语义消歧问题。
    1. 句子:基于深度神经网络的句子表示学习是一个重要的研究任务。在句子 建模的任务里,我们的研究围绕着三个问题展开:如何建模包含习语的句 子?如何解决语义合成的多样性与函数单一性导致的网络表示能力不足的 问题?如何动态学习句子的结构而不是预先指定?针对以上问题,我们分 别提出了基于树结构的自适应语义合成网络、动态语义合成网络、和基于 图的语境化网络。这些模型分别引入了不同的并且适用于当前任务的结构 偏置。
    1. 句对:句对的表示学习在自然语言处理中有很广泛的应用场景,如语义匹 配,自动问答等。解决这个任务的关键在于如何建模两个句子之间复杂的 交互关系。这里我们提出了一种基于多维长短时记忆网络的学习框架,可 以建立两个句子之间强交互关系。另一方面,我们提出学习具有特殊性质的文本表示,这为我们实现针对性迁 移做了铺垫。具体说来,我们通过利用对抗学习(adversarial learning)以及元学 习(meta learning)方式,探索了如何学习具有可迁移性、可分离性,可理解性 的文本表示。
    1. 可迁移性:深度学习技术不仅可以自动提取出有用的特征,它的另一个迷 人之处在于可以对已经学习好的特征进行迁移学习。本文以循环神经网络 为原型,提出了三种适用于文本序列可迁移性学习的框架。
    1. 可分解性:一个好的表示应该可以结构化,并且按照功能属性进行分离,这 样我们才能更好地进行迁移使用。本文中,为了将不同任务之间共享和私有的特征实现分离,我们将对抗学习的思想引入到多任务学习中,该模型 可以实现对共享空间的净化,实现共享-私有特征的正交分离。
    1. 可理解性:很多时候,深度模型取得好结果是以牺牲我们对模型的理解能 力为代价的。那么对于学习到的表示,如何对学习的知识进行可理解分析?本文通过动态建立图神经网络实现了一种可理解模型的学习。

关键词:深度学习;语义表示学习;自然语言处理;归纳偏置;知识迁移

成为VIP会员查看完整内容
0
52

相关内容

自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

语义表示是自然语言处理的基础,我们需要将原始文本数据中的有用信息转换为计算机能够理解的语义表示,才能实现各种自然语言处理应用。表示学习旨在从大规模数据中自动学习数据的语义特征表示,并支持机器学习进一步用于数据训练和预测。以深度学习为代表的表示学习技术,能够灵活地建立对大规模文本、音频、图像、视频等无结构数据的语义表示,显著提升语音识别、图像处理和自然语言处理的性能,近年来引发了人工智能的新浪潮。本书是第一本完整介绍自然语言处理表示学习技术的著作。书中全面介绍了表示学习技术在自然语言处理领域的最新进展,对相关理论、方法和应用进行了深入介绍,并展望了未来的重要研究方向。

本书全面介绍了自然语言处理表示学习技术的理论、方法和应用,内容包括三大部分:第一部分介绍了单词、短语、句子和文档等不同粒度语言单元的表示学习技术;第二部分介绍了与自然语言密切相关的世界知识、语言知识、复杂网络和跨模态数据的表示学习技术;第三部分整理了相关开放资源与工具,并探讨了面向自然语言处理的表示学习技术面临的重要挑战和未来研究方向。本书对于自然语言处理和人工智能基础研究具有一定的参考意义,既适合专业人士了解自然语言处理和表示学习的前沿热点,也适合机器学习、信息检索、数据挖掘、社会网络分析、语义Web等其他相关领域学者和学生作为参考读物。

成为VIP会员查看完整内容
0
83

使用生成模型的无监督学习具有发现3D场景丰富表示的潜力。这种神经场景表示可能随后支持各种下游任务,从机器人技术到计算机图形再到医学成像。然而,现有的方法忽略了场景最基本的属性之一:三维结构。在这项工作中,我们使神经场景表征与一个感应偏差的三维结构的情况。我们证明了这种归纳偏差如何使无监督的发现几何和外观,只给定的二维图像。通过学习一组这样的三维结构感知神经表征的分布,我们可以执行联合重建的三维形状和外观只给出一个单一的二维观察。我们表明,在这个过程中学习到的特征使整个类对象的三维语义分割成为可能,只训练了30个带标记的例子,证明了三维形状、外观和语义分割之间的紧密联系。最后,我们讨论了场景表示学习在计算机视觉本身中的本质和潜在作用,并讨论了未来工作的前景。

成为VIP会员查看完整内容
0
33

题目: 基于深度学习的主题模型研究

摘要: 主题模型作为一个发展二十余年的研究问题,一直是篇章级别文本语义理解的重要工具.主题模型善于从一组文档中抽取出若干组关键词来表达该文档集的核心思想,因而也为文本分类、信息检索、自动摘要、文本生成、情感分析等其他文本分析任务提供重要支撑.虽然基于三层贝叶斯网络的传统概率主题模型在过去十余年已被充分研究,但随着深度学习技术在自然语言处理领域的广泛应用,结合深度学习思想与方法的主题模型焕发出新的生机.研究如何整合深度学习的先进技术,构建更加准确高效的文本生成模型成为基于深度学习主题建模的主要任务.本文首先概述并对比了传统主题模型中四个经典的概率主题模型与两个稀疏约束的主题模型.接着对近几年基于深度学习的主题模型研究进展进行综述,分析其与传统模型的联系、区别与优势,并对其中的主要研究方向和进展进行归纳、分析与比较.此外,本文还介绍了主题模型常用公开数据集及评测指标.最后,总结了主题模型现有技术的特点,并分析与展望了基于深度学习的主题模型的未来发展趋势。

成为VIP会员查看完整内容
0
36

本文是慕尼黑大学数学、信息学及统计学院的博士生Pankaj Gupta的博士学位论文,主要研究两个NLP任务:关系提取和主题建模。本文将神经网络和主题模型两种互补的学习范式结合在一个神经复合模型中,使我们能够通过主题模型在文档集合中共同学习主题结构,并通过语言模型在句子中共同学习单词关系。

慕尼黑大学自19世纪以来便是德国和欧洲最具声望大学之一,也是德国精英大学、U15大学联盟和欧洲研究型大学联盟成员,其社会科学、人文科学、物理,化学,生命科学,医学,数学等领域均在国际上享有盛名。本文是慕尼黑大学数学、信息学及统计学院的博士生Pankaj Gupta的博士学位论文。

自然语言处理(Natural language processing,NLP)涉及构建计算技术,允许计算机自动分析和有意义地表示人类语言。随着数字时代数据的指数增长,基于NLP的系统的出现使我们能够通过广泛的应用程序,如网络搜索引擎、语音助理等,轻松地访问相关信息。为了实现这一目标,几十年来的一项长期研究一直集中在NLP和机器学习交叉的技术上。

近年来,深度学习技术利用了人工神经网络(ANNs)的表现力,在广泛的NLP任务中取得了最先进的性能。深度神经网络(DNNs)可以从输入数据中自动提取复杂的特征,从而为手工特征工程提供了一种替代方法。除了ANN之外,概率图形模型(PGMs)、图论和概率方法的耦合还具有描述系统随机变量之间因果结构的能力,并捕捉到不确定性的原则概念。考虑到DNNs和PGMs的特点,它们被有利地结合起来建立强大的神经模型,以了解数据的潜在复杂性。

传统的基于机器学习的NLP系统采用了浅层计算方法(如SVM或Logistic回归),并依赖于手工特征,这类方法耗时、复杂且往往是不够完整的。基于深度学习和神经网络的方法最近在机器翻译、文本分类、命名识别、关系提取、文本相似性等NLP任务上取得了较好的效果。这些神经模型可以从训练数据中自动提取有效的特征表示。

本文主要研究两个NLP任务:关系提取和主题建模。前者的目的是识别句子或文档中实体或名词之间的语义关系。成功地提取语义关系有助于构建结构化知识库,在网络搜索、问答、推荐引擎等下游NLP应用领域很有用。另一方面,主题建模的任务旨在理解文档集合中的主题结构。主题建模是一种流行的文本挖掘工具,它可以自动分析大量的文档集合,并在不实际阅读的情况下理解主题语义。主题建模分别生成用于文档理解和信息检索的Word集群(即主题)和文档表示。

本质上,关系提取和主题建模主要基于从文本中学习到的表示的质量。在本文中,我们提出了特定于任务的学习表示神经模型,并分别在监督和非监督机器学习范式领域进行关系提取和主题建模任务。更具体地说,我们在开发NLP任务的神经模型方面做出了以下贡献:

神经关系提取:首先,我们提出了一种新的基于递归神经网络的table-filling体系结构,以便在句子中联合执行实体和关系提取。然后,我们进一步扩展了跨句子边界实体之间关系的提取范围,并提出了一种新的基于依赖关系的神经网络体系结构。这两个贡献在于机器学习的监督范式。此外,我们还在构建一个受缺乏标记数据约束的鲁棒关系提取器方面做出了贡献,其中我们提出了一种新的弱监督引导技术。考虑到这些贡献,我们进一步探索了递归神经网络的可解释性,以解释它们对关系提取的预测。

神经主题建模:除了有监督神经体系结构外,我们还开发了无监督神经模型,以学习主题建模框架中有意义的文档表示。首先,我们提出了一种新的动态主题模型,它捕获了随着时间的推移的主题。接下来,我们在不考虑时间依赖性的情况下建立了静态主题模型,其中我们提出了神经主题建模体系结构,这些体系结构也利用外部知识,即Word嵌入来解决数据稀疏性。此外,我们还开发了神经主题模型,其中包含了使用单词嵌入和来自许多来源的潜在主题的知识迁移。最后,我们通过引入语言结构(如语序、局部句法和语义信息等)来改进神经主题建模。它处理传统主题模型中的词袋问题。本节中提出的神经NLP模型是基于PGMs、深度学习和ANN交叉技术。

在这里,神经关系提取的任务使用神经网络来学习通常在句子级别上的表示,而不访问更广泛的文档上下文。然而,主题模型可以访问跨文档的统计信息。因此,我们将两种互补的学习范式结合在一个神经复合模型中是有利的,它由一个神经主题和一个神经语言模型组成,使我们能够通过主题模型在文档集合中共同学习主题结构,并通过语言模型在句子中共同学习单词关系。

总的来说,我们在本论文中的研究贡献扩展了基于NLP的系统,用于关系提取和主题建模任务,同时具有最先进的性能。

成为VIP会员查看完整内容
0
33

题目: 自然语言处理中的表示学习进展:从Transfomer到BERT

报告人: 邱锡鹏 博士 复旦大学

摘要: 目前全连接自注意力模型(比如Transformer)在自然语言处理领域取得了广泛的成功。本报告主要介绍我们在自注意力模型方面的一些工作,主要涵盖两部分内容:1)Transformer及其改进模型:通过分析Transformer的基本原理和优缺点,提出一些改进模型Star-Transformer、Multi-Scale Transformer等。2)预训练的Transformer模型的迁移方法:虽然预训练的Transformer模型(比如BERT、GPT等)在很多自然语言任务上都取得了非常好的性能,我们通过任务转换、继续预训练、多任务学习等方法来进一步提高其迁移能力。最后,对Transformer模型及其未来发展趋势进行展望。

成为VIP会员查看完整内容
20191104-MLA2019-自然语言处理中的表示学习进展:从Transfomer到BERT.pdf
0
51

论文摘要:

教机器理解人类语言文档是人工智能中最难以捉摸和长期存在的挑战之一。本文探讨了阅读理解的问题:如何构建计算机系统来阅读文章和回答理解问题。一方面,我们认为阅读理解是评价计算机系统对人类语言理解程度的一项重要任务。另一方面,如果我们能够构建高性能的阅读理解系统,那么它将成为问答和对话系统等应用的关键技术。本文以神经阅读理解为研究对象:一种基于深度神经网络的阅读理解模型。与传统的稀疏的、手工设计的基于特征的模型相比,这些端到端神经模型在学习丰富的语言现象方面更加有效,并且在所有现代阅读理解基准上的表现都有很大的提高。本文由两部分组成。第一部分是对神经阅读理解的本质进行概括,介绍我们在构建有效的神经阅读理解模型方面所做的努力,更重要的是了解神经阅读理解模型实际学到了什么,以及解决当前任务需要什么样的语言理解深度。我们还总结了该领域的最新进展,讨论了该领域的未来发展方向和有待解决的问题。在本文的第二部分,我们探讨了如何在最近神经阅读理解成功的基础上建立实际应用。特别是,我们开创了两个新的研究方向:1)如何将信息检索技术与神经阅读理解相结合,解决大规模开放领域的问题;(2)如何从当前的单圈、跨步阅读理解模式中构建会话问答系统。我们在DrQA和CoQA项目中实现了这些想法,并证明了这些方法的有效性。我们相信他们对推动未来的语言技术有很大帮助。

成为VIP会员查看完整内容
0
19

CMU大神博士生Brandon Amos,马上就要毕业了。博士期间,他在可微优化机器学习建模方向,发表了ICLR 一篇,ICML 三篇,NeurIPS 三篇,分析了可微优化机器学习建模的很多问题。近日,他将自己的博士论文也开放了出来,系统的讲述了可微优化机器学习建模的方方面面。

博士论文简介

我们提出了两种基于优化建模的基本方法:

  1. OptNet体系结构,将优化问题作为单个层集成到更大的端到端可训练深度网络中,2)引入凸神经网络(ICNN)结构,使基于深度能量和结构化预测模型的推理和学习更加容易。

然后,我们将展示如何使用OptNet方法,1)将无模型和基于模型的强化学习与可微最优控制相结合,2)针对top-k学习问题,我们展示了如何将cvxpy领域特定的语言转换为可微优化层,从而实现本文方法的快速原型化。

成为VIP会员查看完整内容
0
17
小贴士
相关论文
Zhangyin Feng,Daya Guo,Duyu Tang,Nan Duan,Xiaocheng Feng,Ming Gong,Linjun Shou,Bing Qin,Ting Liu,Daxin Jiang,Ming Zhou
0+阅读 · 9月18日
UNITER: Learning UNiversal Image-TExt Representations
Yen-Chun Chen,Linjie Li,Licheng Yu,Ahmed El Kholy,Faisal Ahmed,Zhe Gan,Yu Cheng,Jingjing Liu
17+阅读 · 2019年9月25日
Bryan Wilder,Eric Ewing,Bistra Dilkina,Milind Tambe
3+阅读 · 2019年5月31日
Muhan Zhang,Shali Jiang,Zhicheng Cui,Roman Garnett,Yixin Chen
5+阅读 · 2019年5月30日
Zhengyan Zhang,Xu Han,Zhiyuan Liu,Xin Jiang,Maosong Sun,Qun Liu
4+阅读 · 2019年5月17日
Douwe Kiela,Alexis Conneau,Allan Jabri,Maximilian Nickel
5+阅读 · 2018年6月4日
Isabelle Augenstein,Sebastian Ruder,Anders Søgaard
3+阅读 · 2018年4月9日
Matthew E. Peters,Mark Neumann,Mohit Iyyer,Matt Gardner,Christopher Clark,Kenton Lee,Luke Zettlemoyer
8+阅读 · 2018年3月22日
Anastasia Pentina,Christoph H. Lampert
3+阅读 · 2017年6月8日
Top