【导读】Yoon Kim今年从哈佛大学计算机博士毕业,他是现已经引用7000多次EMNLP论文的TextCNN作者,他的博士论文《自然语言的深度潜在变量模型》,探讨了深度学习和潜在变量建模的结合使用,以更好地理解自然语言处理,即计算机解释人类语言的研究。并获得了首届计算机科学杰出博士学位论文奖。值得关注学习!

Yoon Kim 获得了哈佛大学约翰·保尔森工程与应用科学学院颁发的首届计算机科学杰出博士学位论文奖。

Kim的论文题为《自然语言的深度潜在变量模型》,探讨了深度学习和潜在变量建模的结合使用,以更好地理解自然语言处理,即计算机解释人类语言的研究。

潜变量模型将学习问题分离为独立的部分,而深度学习可以为这些部分学习复杂的、不寻常的函数。通过结合这些技术,Kim的方法比其他方法更能“理解”语言。

“Yoon的研究生工作在自然语言处理和机器学习研究方面取得了罕见的成就,这些研究在研究和工业领域得到了广泛应用,同时也保持了严谨的科学性。作为一个研究生,他的结果已经广泛用于文本分类、大型自然语言处理模型压缩的设备如手机,他甚至写了开源软件部署到主要翻译公司,”前计算机科学助理教授和Yoon的导师Alexander Rush说, 。”他的论文探讨一个具有挑战性的问题,他已经工作了几年,如何学习语言背后的潜在属性结构语法和局部分析,使用一种方法称为深度生成模型。这是非常漂亮的工作,这种论文将在未来几年为这个主题提供参考。”

其个人独自署名论文 TextCNN 谷歌学术论文引用已经到7275。。。

在开始他的研究生工作之前,Kim在康奈尔大学获得数学和经济学学士学位,在哥伦比亚大学获得统计学硕士学位,在纽约大学获得数据科学硕士学位。

他将加入麻省理工学院电子工程和计算机科学系,担任助理教授。

Yoon的论文描述了他在过去几年里所进行的一项研究计划,以恢复语言的潜在结构,并提供了他的思想的广泛应用。他的方法显示出一种概念上的简单性,掩盖了其技术上的丰富性和数学上的复杂性。他已经被视为应用于自然语言的深度学习领域的领导者,他产生的思想已经成为该领域的标准实践。Yoon完全有资格获得计算机科学学位论文奖。”

微软计算机科学教授、计算机科学领域主席埃迪·科勒(Eddie Kohler)解释说,今年早些时候,哈佛计算机科学决定正式认可当年最优秀的博士论文。学院的一个委员会从一组被提名的学生中选出了优胜者,这些学生是根据所有毕业学生的博士委员会的意见提名的。

该奖项将每篇论文作为一个整体进行评估,并考察研究质量、潜在影响和报告质量。

科勒说:“我们为我们所有的学生感到骄傲,我们为Yoon在哈佛完成这项开创性的工作感到骄傲。”

https://www.seas.harvard.edu/news/2020/06/kim-receives-inaugural-dissertation-award

自然语言的深度潜在变量模型

理解自然语言涉及到从表面形式提取意义的复杂底层过程。在自然语言的计算模型中对这种现象进行操作化的一种方法是通过概率潜在变量模型,它可以在概率框架中对观察到的和未观察到的感兴趣变量之间的结构依赖进行编码。另一方面,深度学习提供了一种替代的计算方法来建模自然语言,通过表达性全局模型的端到端学习,任务所需的任何现象都被隐式地捕获在神经网络的隐藏层中。本论文探讨了自然语言处理应用中深度学习和潜在变量建模的综合。我们研究一类被称为深度潜在变量模型,它用神经网络参数化概率潜在变量模型的组成部分,从而保持了潜在变量模型的模块化,同时利用了深度学习的最新进展所带来的丰富参数化。我们实验了不同系列的深度潜在变量模型,以针对广泛的语言现象(从单词对齐到解析树),并将它们应用于核心自然语言处理任务,包括语言建模、机器翻译和无监督解析。

我们还研究了在语言应用中使用深度潜在变量模型时出现的学习和推理的关键挑战。学习这类模型的标准方法是通过平摊变分推理,训练一个全局推理网络对潜在变量进行近似的后验推理。然而,平摊变分推理的直接应用通常不足以满足许多感兴趣的应用,我们考虑几种对标准方法的扩展,从而改进学习和推理。总之,每一章都提供了一个为建模语言的特定方面而定制的深度潜在变量模型,并开发了一个摊销变分推理的扩展,以解决潜在变量模型所带来的特殊挑战。我们预期这些技术将广泛适用于其他感兴趣的领域。

  • 第二章简要概述了潜在变量模型,精确和近似推理,以及神经网络机械在整个论文中使用。

  • 第三章探讨了一个具有完全自回归生成模式的句子的连续潜变模型。我们研究了这类模型中常见的后塌陷模式,并提出了一种改进的半平摊方法来进行近似推理,以减轻后塌陷。

  • 第四章给出了神经机器翻译中注意力的潜在变量形式化,它是由传统统计机器翻译系统中的对齐驱动的。除了学习这类模型的传统方法外,我们还试验了连续放松的方法。

  • 第五章讨论了基于语法的语言模型的学习问题,其中潜在空间对应于句子的解析树集。我们证明后验正则化通过一个结构化推理网络提供适当的归纳偏差,以促进有意义的树结构的出现。

  • 第六章用当代参数化和推理技术回顾了语法归纳。我们将经典的动态规划算法与平摊变分推理相结合,表明这种瓦解的变分推理方法可以训练出更丰富的语法,超越传统的上下文无关的假设。

  • 最后,第七章对未来进行了总结和展望。

成为VIP会员查看完整内容
0
36

相关内容

台湾交通大学的Jen-Tzung Chien教授在WSDN 2020会议上通过教程《Deep Bayesian Data Mining》介绍了深度贝叶斯数据挖掘的相关知识,涵盖了贝叶斯学习、深度序列学习、深度贝叶斯挖掘和学习等内容。

Jen-Tzung Chien教授在WSDM 2020的教程《Deep Bayesian Data Mining》(《深度贝叶斯数据挖掘》)介绍了面向自然语言的深度贝叶斯挖掘和学习,包括了它的基础知识和进展,以及它无处不在的应用,这些应用包括语音识别、文档摘要、文本分类、文本分割、信息抽取、图像描述生成、句子生成、对话控制、情感分类、推荐系统、自动问答和机器翻译等。

从传统上,“深度学习”被认为是一个学习过程,过程中的推断和优化都使用基于实数的判别模型。然而,从大量语料中提取出的词汇、句子、实体、行为和文档的“语义结构”在数学逻辑或计算机程序中可能不能很好地被这种方式表达或正确地优化。自然语言的离散或连续潜在变量模型中的“分布函数”可能不能被正确分解或估计。

该教程介绍了统计模型和神经网络的基础,并聚焦于一系列先进的贝叶斯模型和深度模型,包括层次狄利克雷过程、中国餐馆过程、递归神经网络、长短期记忆网络、序列到序列模型、变分自编码器、生成式对抗网络、策略神经网络等。教程还介绍了增强的先验/后验表示。教程展示了这些模型是如何连接的,以及它们为什么适用于自然语言中面向符号和复杂模式的各种应用程序。

变分推断和采样被提出解决解决复杂模型的优化问题。词和句子的嵌入、聚类和联合聚类被语言和语义约束合并。针对深度贝叶斯挖掘、搜索、学习和理解中的不同问题,一系列的案例研究、任务和应用被提出。最后,教程指出一些未来研究的方向和展望。教程旨在向初学者介绍深度贝叶斯学习中的主要主题,激发和解释它对数据挖掘和自然语言理解正在浮现的重要性,并提出一种结合不同的机器学习工作的新的综合方法。

教程的内容大致如下:

  • 简介
    • 动机和背景
    • 概率模型
    • 神经网络
  • 贝叶斯学习
    • 推断和优化
    • 变分贝叶斯推断
    • 蒙特卡罗马尔科夫链推断
  • 深度序列学习
    • 深度非展开主题模型
    • 门递归神经网络
    • 贝叶斯递归神经网络
    • 记忆增强神经网络
    • 序列到序列学习
    • 卷积神经网络
    • 扩增神经网络
    • 基于Transformer的注意力网络
  • 深度贝叶斯挖掘和学习
    • 变分自编码器
    • 变分递归自编码器
    • 层次变分自编码器
    • 随机递归神经网络
    • 正则递归神经网络
    • 跳跃递归神经网络
    • 马尔科夫递归神经网络
    • 时间差分变分自编码器
    • 未来挑战和发展
  • 总结和未来趋势

完整教程下载

请关注专知公众号(点击上方蓝色专知关注) 后台回复“DBDM20” 就可以获取完整教程PDF的下载链接~

教程部分内容如下所示:

参考链接:

http://chien.cm.nctu.edu.tw/home/wsdm-tutorial/

-END- 专 · 知

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取更多AI知识资料!

欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询!

请加专知小助手微信(扫一扫如下二维码添加),获取专知VIP会员码,加入专知人工智能主题群,咨询技术商务合作~

点击“阅读原文”,了解注册使用专知

成为VIP会员查看完整内容
0
58

题目:* Variational Autoencoders and Nonlinear ICA: A Unifying Framework

摘要:

变分自编码器的框架使我们能够有效地学习深层潜在变量模型,从而使模型的边际分布对观测变量的适应数据。通常,我们想要更进一步,想要在观察到的和潜在的变量上近似真实的联合分布,包括在潜在变量上真实的前后分布。由于模型的不可识别性,这通常是不可能的。我们解决这个问题的方法是证明,对于一个广泛的深层潜在变量模型,通过观察到的和潜在的变量来识别真正的联合分布实际上是可能的,直到非常简单的转换。我们的结果需要对潜在变量进行因式的先验分布,这些潜在变量取决于另外观察到的变量,如类标签或几乎任何其他观察结果。我们以非线性独立分量分析的最新发展为基础,将其扩展到有噪声的、不完全的或离散的观测,并集成在极大似然框架中。作为一个特例,结果也包含了可识别的基于流的生成模型。

作者简介:

Ilyes Khemakhem是UCL Gatsby计算神经科学学院三年级的博士生,导在读博士之前,在Ecole polytechnique完成了工程学位,主要研究应用数学,还获得了计算机视觉和机器学习(MVA)硕士学位。研究主要集中在无监督学习,即非线性独立分量分析、密度估计。还对因果关系、神经科学(特别是在神经成像数据上应用机器学习模型)、统计物理和微分几何感兴趣。个人主页:https://ilkhem.github.io/

Durk Kingma是机器学习领域的研究科学家,在谷歌大脑工作,拥有阿姆斯特丹大学的博士学位。研究过生成模型、变分(贝叶斯)推理、随机优化、可识别性等课题。个人主页:http://www.dpkingma.com/

成为VIP会员查看完整内容
0
10

讲座题目

深层贝叶斯挖掘、学习与理解:Deep Bayesian Mining, Learning and Understanding

讲座简介

本教程介绍了自然语言的深度贝叶斯学习的进展,其应用广泛,从语音识别到文档摘要、文本分类、文本分割、信息提取、图像字幕生成、句子生成、对话控制、情感分类、推荐系统,问答和机器翻译,举几个例子。传统上,“深度学习”被认为是一种基于实值确定性模型进行推理或优化的学习过程。从大量词汇中提取的单词、句子、实体、动作和文档中的“语义结构”在数学逻辑或计算机程序中可能没有得到很好的表达或正确的优化。自然语言离散或连续潜变量模型中的“分布函数”可能无法正确分解或估计。本教程介绍了统计模型和神经网络的基本原理,重点介绍了一系列先进的贝叶斯模型和深层模型,包括分层Dirichlet过程、中餐馆过程、分层Pitman-Yor过程、印度自助餐过程、递归神经网络、长时短期记忆,序列到序列模型,变分自动编码器,生成对抗网络,注意机制,记忆增强神经网络,跳跃神经网络,随机神经网络,预测状态神经网络,策略神经网络。我们将介绍这些模型是如何连接的,以及它们为什么在自然语言中的符号和复杂模式的各种应用中起作用。为了解决复杂模型的优化问题,提出了变分推理和抽样方法。词和句子的嵌入、聚类和共聚类与语言和语义约束相结合。本文提出了一系列的案例研究,以解决深度贝叶斯挖掘、学习和理解中的不同问题。最后,我们将指出未来研究的一些方向和展望。

讲座嘉宾

Jen-Tzung Chien,詹增建于一九九七年获中华民国新竹国立清华大学电机工程博士学位。现任台湾新竹国立交通大学电机与电脑工程系及电脑科学系主任教授。2010年,他在纽约约克敦高地IBM T.J.沃森研究中心担任客座教授。他的研究兴趣包括机器学习、深度学习、自然语言处理和计算机视觉。

成为VIP会员查看完整内容
0
35

课程简介: 本课程将向学生介绍NLP的基础知识,涵盖处理自然语言的标准框架以及解决各种NLP问题的算法和技术,包括最新的深度学习方法。 涵盖的主题包括语言建模,表示学习,文本分类,序列标记,语法解析,机器翻译,问题解答等。

课程安排:

  • 概述与简介
  • 语言模型
  • 文本分类
  • 线性模型
  • 词嵌入
  • 神经网络基础
  • 序列模型
  • EM模型
  • RNN神经语言模型
  • 解析介绍
  • 机器翻译
  • 神经机器翻译
  • 文本词嵌入
  • 问答系统
  • 对话系统
  • 嘉宾讲座

嘉宾介绍:

陈丹琦,普林斯顿大学计算机科学的助理教授,在此之前,是西雅图Facebook AI Research(FAIR)的访问科学家。 斯坦福大学计算机科学系获得博士学位,并在斯坦福NLP集团工作。研究方向:自然语言处理,文本理解、知识解释。

Karthik Narasimhan,普林斯顿大学计算机科学系助理教授,研究跨越自然语言处理和强化学习。

成为VIP会员查看完整内容
0
45

主题: An Overview of the International Planning Competition

摘要: 本教程介绍了自然语言的深度贝叶斯和序列学习的进展,其应用广泛,从语音识别到文档摘要、文本分类、文本分割、信息提取、图片标题生成、句子生成、对话控制、情感分类,推荐系统,问答和机器翻译。传统上,“深度学习”被认为是一种基于实值确定性模型进行推理或优化的学习过程。从大量词汇中提取的单词、句子、实体、动作和文档中的“语义结构”在数学逻辑或计算机程序中可能没有得到很好的表达或正确的优化。自然语言离散或连续潜变量模型中的“分布函数”在模型推理中可能无法正确分解或估计。本教程介绍了统计模型和神经网络的基本原理,重点介绍了一系列先进的贝叶斯模型和深层模型,包括分层Dirichlet过程、Chinese restaurant 过程、分层Pitman-Yor过程、Indian buffet过程、递归神经网络、长时短期记忆,序列到序列模型,变分自动编码,生成对抗网络,注意机制,记忆增强神经网络,随机神经网络,预测状态神经网络,策略梯度和强化学习。我们将介绍这些模型是如何连接的,以及它们为什么在自然语言中的符号和复杂模式的各种应用中起作用。为了解决复杂模型的优化问题,提出了变分推理和抽样方法。词和句子的嵌入、聚类和共聚类与语言和语义约束相结合。本文提出了一系列的个案研究,以解决深度贝叶斯学习与理解中的不同问题。最后,我们将指出未来研究的一些方向和展望。

邀请嘉宾: Jen-Tzung Chien在台湾新竹国立清华大学取得电机工程博士学位。现任职于台湾新竹国立交通大学电子及电脑工程学系及电脑科学系讲座教授。2010年,他担任IBM沃森研究中心的客座教授。他的研究兴趣包括机器学习、深度学习、自然语言处理和计算机视觉。在2011年获得了IEEE自动语音识别和理解研讨会的最佳论文奖,并在2018年获得了AAPM Farrington Daniels奖。2015年,剑桥大学出版社出版《贝叶斯语音与语言处理》;2018年,学术出版社出版《源分离与机器学习》。他目前是IEEE信号处理技术委员会机器学习的当选成员。

成为VIP会员查看完整内容
0
31

教程题目:Deep Bayesian Natural Language Processing

教程简介

这个教学讲座将会介绍用于自然语言处理的深度贝叶斯学习的发展,以及它在语音识别、文本总结、文本分类、文本分割、信息提取、图像描述生成、句子生成、对话控制、情感分类、推荐系统、问答、机器翻译等等许多任务中的广泛应用。传统上,“深度学习”被认为是一个基于实值确定性模型进行推理或优化的学习过程。从大量词汇中提取的词汇、句子、实体、动作和文档的“语义结构”在数学逻辑或计算机程序中可能不能很好地表达或正确地优化。自然语言的离散或连续潜在变量模型中的“分布函数”可能没有被正确分解或估计。

本教程介绍了统计模型和神经网络的基础知识,并将重点讲解一系列高级的贝叶斯模型以及深度模型。这些模型之间的联系、能在自然语言的许多符号化表示和复杂模式中发挥作用的原因也会得到介绍。我们将介绍这些模型是如何连接的,以及它们为什么适用于自然语言中符号和复杂模式的各种应用程序。

为解决复杂模型的优化问题,提出了变分推理和抽样方法。词和句子的嵌入、聚类和共聚被语言和语义约束合并。提出了一系列的案例研究来解决深度贝叶斯学习和理解中的不同问题。最后,指出了一些未来研究的方向和展望。

组织者:

Jen-Tzung Chien在台湾新竹国立清华大学取得电机工程博士学位。现任职于台湾新竹国立交通大学电子及电脑工程学系及电脑科学系讲座教授。2010年,他担任IBM沃森研究中心的客座教授。他的研究兴趣包括机器学习、深度学习、自然语言处理和计算机视觉。在2011年获得了IEEE自动语音识别和理解研讨会的最佳论文奖,并在2018年获得了AAPM Farrington Daniels奖。2015年,剑桥大学出版社出版《贝叶斯语音与语言处理》;2018年,学术出版社出版《源分离与机器学习》。他目前是IEEE信号处理技术委员会机器学习的当选成员。

成为VIP会员查看完整内容
[2019] ACL tutorial-Deep Bayesian Natural Language Processing.pdf
0
25

论文摘要:深度生成模型前景广阔,但是现有模型的表达能力、可解释性和判别性均有不足之处,亟待解决。具体而言,第一,现有深度生成模型中的网络结构和隐变量结构都非常简单,这限制了模型的表达能力;第二,现有深度生成模型以完全黑盒的方式拟合一个从噪音到高维数据的映射,其隐变量可解释性不足,生成图像的语义也难以控制;第三,无监督学习所提特征的判别能力远逊于前馈神经网络,而在深度生成模型中恰当地引入监督信号又是一个非平凡问题。本文面向不同的机器学习任务,设计匹配的模型和学习准则,开发高效的推理和学习算法,解决上述深度生成模型的关键性研究问题。本文的主要创新点如下:

  1. 面向无监督学习,受神经科学启发,提出一个带有记忆模块和注意力机制的 深度生成模型,提高了模型的表达能力和表现;提出对抗变分推理和学习算 法,无需对模型结构作特定假设,提高了一大类无向模型的推理和学习效果。
  2. 面向无监督学习和弱监督学习,基于贝叶斯网络和信息传播算法,提出一个 灵活普适的结构化深度生成模型框架,可以生成新的结构化数据并推理给定 数据中的结构化隐变量,增强了深度生成模型的表达能力和可解释性。
  3. 面向有监督学习和半监督学习,基于最大间隔学习准则,提出最大间隔深度 生成模型及其变体,极大增强了显式概率模型的判别能力,同时保留了其处 理数据中的噪音和缺失信息的能力。
  4. 面向半监督学习,受博弈理论启发,提出了三元生成对抗网络,首次提出半 监督生成对抗网络的最优均衡点并给出证明,显著提高了半监督分类准确率, 并首次在给定部分标注的情况下完成了语义可控的图像合成任务。

关键词: 深度生成模型;变分推理;对抗训练;图像合成;有限标注

作者介绍:李崇轩是清华大学计算机系2014级的博士研究生,他的博士生导师是张钹。他的研究兴趣主要是统计机器学习,特别是各种学习任务的深度生成模型,包括无监督、(半)监督和强化学习。

成为VIP会员查看完整内容
0
20

课程介绍:

本课程介绍用于自然语言处理(NLP)的深度学习(DL)技术。与其他DL4NLP课程相反,我们将在一些讲座中对所有神经体系结构(例如CNN,RNN,注意力)进行一次旋风之旅。 然后,我们将在使用贝叶斯和马尔可夫网络学习结构化预测方面做出巨大的努力,并应用顺序标注,句法解析和句子生成。 在这个过程中,我们还将看到如何将这些传统方法与简单的神经网络相结合并加以改进。

主讲人:

Lili Mou博士是阿尔伯塔大学计算机科学系的助理教授。Lili分别于2012年和2017年在北京大学EECS学院获得了学士和博士学位。之后,他在滑铁卢大学(University of Waterloo)担任博士后,并在Adeptmind(加拿大多伦多的一家初创公司)担任研究科学家。他的研究兴趣包括应用于自然语言处理以及编程语言处理的深度学习。他在顶级会议和期刊上都有出版物,包括AAAI,ACL,CIKM,COLING,EMNLP,ICASSP,ICML,IJCAI,INTERSPEECH,NAACL-HLT和TACL(按字母顺序)。

课程大纲:

神经网络基础

  • 分类任务与分类器
  • 深度神经网络
  • Embedding
  • 结构化输入表示

结构化预测

  • 贝叶斯网络
  • 马尔科夫网络与条件随机场
  • 语法解析

句子生成

  • 变分自编码器
  • 抽样与随机搜索

离散空间

  • NLP中的强化学习
  • 强化学习的神经松弛
成为VIP会员查看完整内容
0
14

作者Jacob Andreas是自然语言处理的研究者,研究兴趣为用语言作为更有效学习的支架和理解模型行为的探针,以及结合深度表示和离散组合性优点的结构化神经方法。近期公开发布了他的博士论文。

博士论文介绍:

本文探讨了语言结构在结构和参数化中用于语言处理和其他应用的机器学习模型的方法。作者将该模型应用于问答系统,指令跟踪,图像分类等多种任务。

作者首先介绍一类称为神经模块网络(NMN)的模型,并介绍它们在自然语言问答中的应用。NMN旨在实现同时利用深层网络的表征能力和构成问题的语言结构。我们的方法将问题分解为语言子结构,并使用这些子结构动态地从可重复使用的模块库构建网络。由此产生的复合网络是共同训练的。作者并在含有图像和结构化知识库的问答数据集上的方法评估模型。随后,作者将这种思想转移到策略学习中,研究在面对不同但相似的问题时,怎么组合策略。

成为VIP会员查看完整内容
0
17
Top