ACL 2020 Tutorials 速递

自然语言处理

教程详细信息

T1：神经 NLP 中的可解释性和分析（前沿）

虽然深度学习已经改变了自然语言处理（NLP）领域并影响了更大的计算语言学社区，但神经网络的不透明性质却染上了神经网络：解释神经网络模型的内部工作原理并阐明其行为具有挑战性。因此，在过去的几年中，越来越多的工作致力于 NLP 中的神经网络模型的分析和解释。到目前为止，这项工作缺乏通用的框架和方法。而且，对现代神经网络的分析对于新手来说可能是困难的。本教程旨在填补这一空白，并介绍 NLP 中可解释性和神经网络分析的新兴领域。本教程将介绍分析工作的主要内容，例如使用探测分类器进行结构分析，行为研究和测试套件以及交互式可视化。我们不仅将重点介绍最常用的分析方法，还将重点介绍当前方法的特定局限性和不足之处，以告知参与者未来应将精力集中在哪里。

T2：从网络上的文本，半结构和表格数据中提取多模式信息（前沿）

万维网以多种形式包含大量文本信息：非结构化文本，基于模板的半结构化网页（以键值对和列表的形式显示数据）和表格。从这些来源中提取信息并将其转换为结构化形式的方法一直是自然语言处理（NLP），数据挖掘和数据库社区研究的目标。尽管这些研究人员已根据数据的形式将Web数据的提取大致分为不同的问题，但他们也面临类似的问题，例如学习有限的标记数据，定义（或避免定义）本体，利用先验知识以及扩展解决 Web 规模的解决方案。在本教程中，我们从整体角度看待信息提取，探索为解决这些不同形式的文本而面临的挑战和解决方案的共性。我们将探索针对主要依赖于学习句法或语义文本模式的非结构化文本的方法，针对学习识别模板中结构性模式的半结构化文档的方法以及针对很大程度上依赖于实体链接和类型的 Web 表的方法信息。尽管这些不同的数据模式在过去已被广泛考虑，但最近的研究已开始采用更具包容性的方法进行文本提取，其中将文本，布局和视觉线索提供的多种信号组合到一个单一的提取模型中通过新的深度学习方法。与此同时，纯文本提取中的趋势已转向对全文的理解，而不是将句子视为独立的单元。考虑到这一点，有必要从整体上考虑信息提取问题，以激发利用文本语义以及视觉和半结构化布局信息的解决方案。我们将讨论这些方法，并为将来的工作提出建议。

有关教程材料，请参见https://sites.google.com/view/acl-2020-multi-modal-ie。

T3：回顾自然语言处理研究（导论）

本教程将涵盖对自然语言处理研究进行回顾的理论和实践。自然语言处理研究人员的沉重审查负担已明确表明，我们的社区需要增加潜在审查人员的规模。同时，明显的错误否定（我们的工作会议的拒绝在后来被其他会议接受之后被证明是非常重要的）已经提高了人们的认识，即我们的审核做法尚有待改进。我们并不经常谈论与会议论文有关的误报，但该领域的领导者已经指出，我们似乎对那些报告高性能的论文有偏见，也许对他们没有太多兴趣。不必是这种方式。复习是一种可学的技能，你可以通过演讲和大量的实践学到。

T4：程式化的文本生成：方法和应用（前沿）

文本生成在自然语言处理（NLP）的各种应用中起着重要作用，并且最近的研究表明，研究人员越来越关注建模和操纵生成文本的样式，我们称之为风格化文本生成。在本教程中，我们将朝着这个方向提供全面的文献综述。我们从样式的定义和样式化文本生成的不同设置开始，并通过各种应用程序进行说明。然后，我们介绍风格化生成的不同设置，例如样式条件生成，样式转移生成和样式对抗生成。在每种情况下，我们都会深入研究机器学习方法，包括嵌入用于表示风格的学习技术，对抗性学习，循环一致性的强化学习，以匹配内容但区分不同的风格。我们还介绍了评估风格化文本生成系统的当前方法。在结束本教程时，我们将介绍风格化文本生成的挑战并讨论未来的方向，例如小数据培训，非分类样式建模以及样式转换的广义范围（例如，将语法作为样式进行控制）。

有关教程材料，请参见https://sites.google.com/view/2020-stylized-text-generation/tutorial。

T5：在多模式对话中实现共同点（前沿）

所有沟通的目的都是为了实现共同点（基础）：对话者只有在对世界状况，目标是什么以及如何计划实现目标的共同信念下才能有效地开展合作。计算对话研究提供了一些有关接地的经典结果，不幸的是，这些研究对接地模块的设计和尖端系统中的行为提供的指导很少。在本教程中，我们重点关注三个主要主题领域：1）人与人交流的基础；2）对话系统接地；3）扎根于多模式互动系统中，包括面向图像的对话和人机交互。我们重点介绍了最近在协调复杂内容方面的计算研究取得的成就，展示这些结果如何为以更灵活和更有力的方式进行扎根带来丰富而具有挑战性的机会，并从人与人对话的文献中汲取相关见解。我们希望该教程对对话系统，计算语义和认知建模方面的研究人员感兴趣，并希望它能促进研究和系统构建，从而更直接地探索对话代理人可能寻求并提供证据的创造性战略策略关于他们对对话者的理解。

有关教程材料，请参见https://github.com/malihealikhani/Grounding_in_Dialogue。

T6：自然语言处理的常识推理（导论）

常识性知识（例如知道“撞人使他们烦恼”或“雨使道路打滑”）有助于人们无缝地导航日常情况。然而，几十年来，赋予机器这种类似人类常识性推理能力的机器仍然是人工智能研究的一个遥不可及的目标。近年来，常识知识和推理受到自然语言处理（NLP）社区的重新关注，在自动常识理解方面进行了探索性研究。我们组织本教程的目的是为研究人员提供常识表示和推理的关键基础和最新进展，以期为这一有前途的未来研究领域提供更广阔的前景。在我们的教程中，我们将（1）概述各种常识（2）讨论收集和表示常识知识的技术，同时重点介绍针对此类知识的特定挑战（例如，报告偏见）。然后，我们将（3）讨论现代NLP系统（例如，大型预训练语言模型）所捕获的常识知识的类型，以及（4）提出测量系统常识推理能力的方法。我们将以（5）结束讨论常识推理可用于提高NLP任务性能的各种方式，以（6）关于将常识集成到下游任务中的交互式会话为例。

有关教程材料，请参见https://tinyurl.com/acl2020-commonsense。

T7：将准则纳入NLP课程（导论）

为了提高未来的NLP从业者的认识并防止该领域的惯性，我们需要在所有NLP学生的课程中放置规范-不是作为选修课，而是作为其教育的核心部分。我们在本教程中的目标是使NLP研究人员和实践者具有工具和资源，以教其他人如何按准则地应用NLP技术。我们将根据经验和最佳实践，介绍开发以准则为导向的课程的高级策略，以及可以带入课堂的特定示例练习。高度互动的工作会议将最终形成一个共享的在线资源页面，该页面汇集了课程计划，任务，练习想法，阅读建议以及与会者的想法。尽管本教程将特别侧重于大学教室的示例，我们相信这些想法可以扩展到各种组织的公司内部研讨会或教程。在这种情况下，一个关键的教训是，没有准则NLP的单一方法：每个项目都需要仔细考虑可以采取哪些步骤来最好地支持受该项目影响的人们。但是，我们可以学习（和教授）要注意的问题，要提出的问题以及可以使用的减轻伤害的策略。

T8：开放域问答（前沿）

本教程对开放域问题解答（QA）中的前沿研究进行了全面，一致的概述，这些问题是使用大量主题广泛的文档来回答问题的任务。首先，我们将简要介绍一下历史背景，讨论研究问题的基本设置和核心技术挑战，然后使用常见的评估指标和基准描述现代数据集。然后，重点将转移到为开放域质量保证建议的前沿模型，包括两阶段的检索器-阅读器方法，稠密检索器和端到端培训以及无检索器的方法。最后，我们将介绍一些使用文本和大型知识库的混合方法，并在本教程中总结了一些重要的开放性问题。

有关教程材料，请参见https://github.com/danqi/acl2020-openqa-tutorial。

发布于 2020-07-09 10:10