TextCNN大牛Kim哈佛大学2020杰出博士毕业论文《自然语言的深度潜变量模型》185页pdf，Kim将到MIT任助理教授

2020 年 6 月 10 日 专知

【导读】Yoon Kim今年从哈佛大学计算机系博士毕业，他是现已经引用7000多次EMNLP论文的TextCNN作者，他的博士论文《自然语言的深度潜在变量模型》，探讨了深度学习和潜在变量建模的结合使用，以更好地理解自然语言处理，即计算机解释人类语言的研究。并获得了首届计算机科学杰出博士学位论文奖。值得关注学习！

Yoon Kim 获得了哈佛大学约翰·保尔森工程与应用科学学院颁发的首届计算机科学杰出博士学位论文奖。

Kim的论文题为《自然语言的深度潜在变量模型》，探讨了深度学习和潜在变量建模的结合使用，以更好地理解自然语言处理，即计算机解释人类语言的研究。

潜变量模型将学习问题分离为独立的部分，而深度学习可以为这些部分学习复杂的、不寻常的函数。通过结合这些技术，Kim的方法比其他方法更能“理解”语言。

“Yoon的研究生工作在自然语言处理和机器学习研究方面取得了罕见的成就，这些研究在研究和工业领域得到了广泛应用，同时也保持了严谨的科学性。作为一个研究生,他的结果已经广泛用于文本分类、大型自然语言处理模型压缩的设备如手机,他甚至写了开源软件部署到主要翻译公司,”前计算机科学助理教授和Yoon的导师Alexander Rush说, 。”他的论文探讨一个具有挑战性的问题,他已经工作了几年,如何学习语言背后的潜在属性结构语法和局部分析,使用一种方法称为深度生成模型。这是非常漂亮的工作，这种论文将在未来几年为这个主题提供参考。”

其个人独自署名论文 TextCNN 谷歌学术论文引用已经到7275。。。

在开始他的研究生工作之前，Kim在康奈尔大学获得数学和经济学学士学位，在哥伦比亚大学获得统计学硕士学位，在纽约大学获得数据科学硕士学位。

他将加入麻省理工学院电子工程和计算机科学系，担任助理教授。

Yoon的论文描述了他在过去几年里所进行的一项研究计划，以恢复语言的潜在结构，并提供了他的思想的广泛应用。他的方法显示出一种概念上的简单性，掩盖了其技术上的丰富性和数学上的复杂性。他已经被视为应用于自然语言的深度学习领域的领导者，他产生的思想已经成为该领域的标准实践。Yoon完全有资格获得计算机科学学位论文奖。”

微软计算机科学教授、计算机科学领域主席埃迪·科勒(Eddie Kohler)解释说，今年早些时候，哈佛计算机科学决定正式认可当年最优秀的博士论文。学院的一个委员会从一组被提名的学生中选出了优胜者，这些学生是根据所有毕业学生的博士委员会的意见提名的。

该奖项将每篇论文作为一个整体进行评估，并考察研究质量、潜在影响和报告质量。

科勒说:“我们为我们所有的学生感到骄傲，我们为Yoon在哈佛完成这项开创性的工作感到骄傲。”

https://www.seas.harvard.edu/news/2020/06/kim-receives-inaugural-dissertation-award

自然语言的深度潜在变量模型

理解自然语言涉及到从表面形式提取意义的复杂底层过程。在自然语言的计算模型中对这种现象进行操作化的一种方法是通过概率潜在变量模型，它可以在概率框架中对观察到的和未观察到的感兴趣变量之间的结构依赖进行编码。另一方面，深度学习提供了一种替代的计算方法来建模自然语言，通过表达性全局模型的端到端学习，任务所需的任何现象都被隐式地捕获在神经网络的隐藏层中。本论文探讨了自然语言处理应用中深度学习和潜在变量建模的综合。我们研究一类被称为深度潜在变量模型，它用神经网络参数化概率潜在变量模型的组成部分，从而保持了潜在变量模型的模块化，同时利用了深度学习的最新进展所带来的丰富参数化。我们实验了不同系列的深度潜在变量模型，以针对广泛的语言现象(从单词对齐到解析树)，并将它们应用于核心自然语言处理任务，包括语言建模、机器翻译和无监督解析。

我们还研究了在语言应用中使用深度潜在变量模型时出现的学习和推理的关键挑战。学习这类模型的标准方法是通过平摊变分推理，训练一个全局推理网络对潜在变量进行近似的后验推理。然而，平摊变分推理的直接应用通常不足以满足许多感兴趣的应用，我们考虑几种对标准方法的扩展，从而改进学习和推理。总之，每一章都提供了一个为建模语言的特定方面而定制的深度潜在变量模型，并开发了一个摊销变分推理的扩展，以解决潜在变量模型所带来的特殊挑战。我们预期这些技术将广泛适用于其他感兴趣的领域。

第二章简要概述了潜在变量模型，精确和近似推理，以及神经网络机械在整个论文中使用。
第三章探讨了一个具有完全自回归生成模式的句子的连续潜变模型。我们研究了这类模型中常见的后塌陷模式，并提出了一种改进的半平摊方法来进行近似推理，以减轻后塌陷。
第四章给出了神经机器翻译中注意力的潜在变量形式化，它是由传统统计机器翻译系统中的对齐驱动的。除了学习这类模型的传统方法外，我们还试验了连续放松的方法。
第五章讨论了基于语法的语言模型的学习问题，其中潜在空间对应于句子的解析树集。我们证明后验正则化通过一个结构化推理网络提供适当的归纳偏差，以促进有意义的树结构的出现。
第六章用当代参数化和推理技术回顾了语法归纳。我们将经典的动态规划算法与平摊变分推理相结合，表明这种瓦解的变分推理方法可以训练出更丰富的语法，超越传统的上下文无关的假设。