NeurIPS 2021有哪些值得读的NLP论文?

2021 年 10 月 30 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 王馨月

学校 | 四川大学

研究方向 | 自然语言处理




Information Flow in BERT


论文标题:

Influence Patterns for Explaining Information Flow in BERT


论文链接:

https://arxiv.org/abs/2011.00740


基于注意力的 transformer 模型(如 BERT)表现良好,但信息如何从输入 token 流向输出预测尚不清楚。作者引入了一种解析 transformer 性能的方法——影响模式。影响模式是通过 transformer 模型的路径集的抽象,量化和本地化信息流到通过一系列模型节点的路径。通过实验,作者发现 BERT 中的大部分信息流都通过 skip 连接而不是注意力头。作者进一步表明,跨实例模式的一致性是一种评价 BERT 性能的指标。最后,作者证明了模式比以前基于注意力和基于层的方法更能解释模型性能。

作者通过基于梯度的归因方法的替代视角来研究信息流问题。通过 transformer 的整个计算图引入影响模式——基于梯度的路径集的抽象。作者还引入了一种贪婪搜索程序,用于高效地查找代表概念关键信息流的模式。下图提供了 BERT 中的影响模式示例。

图中展示的是 SVA 任务实例的 BERT 架构(左)和 transformer 层的细节(右),用于评估模型是否选择了正确的动词形式,以供 [MASK] 与主题一致 。模式的示例用红色节点突出显示。

通过将 BERT 视为一个计算图,作者重申了这个问题:给定一个源节点 s 和一个目标节点 t,我们寻找从 s 到 t 的重要节点模式,该模式显示了来自 s 的影响如何从一个节点到另一个节点遍历,最后到达 t。在较小的网络中,可以采用从 s 流向 t 的影响量对所有路径进行排序的详尽方法。然而,类似的方法缺乏对像 BERT 这样的大型模型的可扩展性。因此,作者提出了一种方法来贪婪地将搜索空间从所有可能的路径缩小到特定模式,将抽象模式提炼为更具体的模式,保持较高的影响力。

下图是引导模式细化 (Guided Pattern Refinement, GPR) 的图示。从仅包含源节点和目标节点的模式 开始。在每一步,分别定义一个引导集 ,并在引导集中找到最大化模式影响的节点。GPR 最终返回一个模式 抽象出单个路径。

下图中(a)(b)是 SVA-Obj 的两个实例的模式。(c)是基线模式 。对于每个图,左边是位置 i 的单词的:分布影响 (黄色)、 (紫色)和 (蓝色)。右边是从选择词中提取的模式 。方形节点和圆形节点分别表示输入和内部 embedding。在(a)和(b)中,通过 skip 连接的影响用虚线表示,注意力头用实线表示;边在 中标有对应的注意力头编号(范围从 1 到 A)。线条颜色代表影响的标志(红色为负面,绿色为正面)。

下图是作者对影响模式的可视化研究。(a)是来自 SP、SVA-obj 的三个从句动词的模式。(b)是 SA 任务中两个实例的模式。
下图是作者实验得出的任务表现、影响大小与模式熵的关系。

作者对几个 NLP 任务的影响模式进行了广泛的实证研究:主谓一致(SVA)、反身回指(RA)和情感分析(SA)。将发现总结如下:
  • BERT 中的很大一部分信息流通过 skip 连接而不是注意力头,这表明注意力权重本身不足以表征信息流。实验表明,平均而言,重要信息通过 skip 连接的频率是注意力的 3 倍。
  • 通过可视化提取的模式,作者展示了单词的信息流如何在模型内部交互,并且 BERT 可能会使用语法错误的线索进行预测。
  • 任务实例间影响模式的一致性反映了 BERT 在该任务上的表现。
  • 通过消融实验,作者发现影响模式在 BERT 中解释信息流的准确度分别比先前的基于注意力和基于层的解释方法高 74% 和 25%。

这篇论文提供了一种研究 transformer 可解释性的新思路,值得阅读。


Is Automated Topic Model Evaluation Broken?

论文标题:
Is Automated Topic Model Evaluation Broken?: The Incoherence of Coherence


论文链接:
https://arxiv.org/abs/2107.02173

这篇论文作者对没有人工判断的全自动评估的有效性提出了质疑:自动评估产生了模型之间的区别,而相应的人工评估则没有。作者提出神经主题模型评估的实践存在验证差距:尚未使用人体实验验证神经模型的自动一致性。并且使用自动化主题建模基准方面存在巨大的标准化差距。

作者解决了主题模型评估中标准化差距和验证差距。主要完成了以下工作:

  1. 提出了神经主题模型评估的元分析,以准确表征当前的事态;

  2. 开发了两个广泛使用的评估数据集的标准化、预处理版本,以及用于再现结果的透明端到端代码;
  3. 使用相同的预处理、模型选择标准和超参数调整优化了三个主题模型——一个经典模型和两个神经模型;
  4. 使用评分和单词入侵任务获得对这些模型的人工评估;
  5. 提供了自动评估和人工评估之间相关性的新评估。

实验所得结论表明,自动主题模型评估已经过时了,需要仔细重新考虑。

人工判断与自动度量之间存在差异的原因之一是度量偏向于更深奥的主题。具体而言,主题的 NPMI / Cv 与报告熟悉程度的受访者比例之间存在显着的负相关。然而,即使在过滤掉不熟悉主题术语的受访者之后,自动化指标仍然夸大了模型差异。

因此,主题模型评估本身似乎可以使用全新的观点。在这一点上,Doogan 和 Buntine 在 2021 年写道“为旧模型设计的一致性度量 [. . . ] 可能与较新的模型不兼容,”并且他们主张以语料库探索和标记为中心的评估范式。作者认为这种重新评估的正确起点是承认任何评估和指标都是一些现实世界问题场景的抽象。

例如,在信息检索中常见的 precision-at-10 用法是对用户只愿意考虑检索到的前十个文档的场景的抽象。在未来的工作中,可以探索能够更好地近似真实世界主题模型用户偏好的自动化指标。

主题模型的一个主要用途是在计算机辅助内容分析中。在这种情况下,与其采取方法驱动的评估方法,不如采取需求驱动的方法。需要重新审视使用像 NYT 这样的领域通用语料库对主题模型进行通用评估的想法,因为没有用于内容分析的“通用”语料库,也没有通用分析师。

正如 Krippendorff(2004)所表明的那样,内容分析可以用广泛的方式来表述,但它的实际应用始终是在一个领域中,由熟悉该领域的人使用。这一事实与通用语料库和众包注释的理想实用性存在矛盾,该领域需要解决这种矛盾。我们已经将“连贯性”确定为在读者脑海中唤出一个潜在的概念。因此,我们必须考虑相关的人类读者是谁以及对他们来说重要的概念空间。


QCFG


论文标题

Sequence-to-Sequence Learning with Latent Neural Grammars


论文链接:

https://arxiv.org/abs/2109.01135


项目地址:

https://github.com/yoonkim/neural-qcfg


使用神经网络进行序列到序列学习已成为序列预测任务的事实上的标准。这种方法通常使用可以根据任意上下文进行调节的强大神经网络对下一个单词的局部分布进行建模。虽然灵活且高效,但这些模型通常需要大型数据集进行训练,并且在旨在测试组合泛化的基准测试中可能会失败。

作者探索了使用潜在神经语法进行序列到序列学习的另一种分层方法。首先,使用准同步上下文无关语法(quasi-synchronous context-free grammars, QCFG) 对目标序列上的分布进行建模,该语法假设一个分层生成过程,其中目标树中的每个节点都被源树中的节点转换。这种节点级对齐为每个输出部分的生成方式提供了出处和因果机制,从而使生成过程更具可解释性。

作者还发现,与非层次模型相比,源端和目标端层次结构的显式建模改进了组合泛化。其次,与将经常观察到的树结构合并到使用神经网络的序列建模的现有工作线相比,作者将源树和目标树视为完全潜在的,并在训练期间诱导它们。

最后,虽然以前关于同步语法的工作通常在手工/流水线特征上使用对数线性模型,但作者利用神经特征来参数化语法的规则概率,这使得在推导规则的组合空间上有效共享参数,而无需任何手动特征工程。作者还直接将语法用于端到端生成,而不是作为更大流水线系统的一部分。

作者将这种潜在的神经语法应用于各种领域——一种旨在测试组合泛化(SCAN)、风格迁移和小规模机器翻译的诊断语言导航任务——并发现它与标准 baseline 相比表现可观。
下图显示了作者在 SCAN 上针对各种基线的结果。虽然许多方法几乎可以完美地解决这个数据集,但它们经常利用特定于 SCAN 的知识,这妨碍了它们直接应用于非合成领域。神经 QCFG 表现出色,同时保持领域不可知。

下图展示了一些频繁出现的规则示例,这些规则基于它们在添加原语(跳转)拆分的训练集上的 MAP 目标树计数。许多规则是合理的,它们进一步说明了对多个非终结符的需求。例如,为了在只有一元和二元规则的语法中处理“x x x”形式的源短语,模型在与同一短语组合时以不同的方式使用非终结符 N1 和 N8。

下图展示了从 SCAN 的添加原语(跳转)拆分的测试集上的神经 QCFG 生成的示例。从学习到的源解析器的诱导树显示在左侧,目标树推导显示在右侧。节点级对齐为每个目标跨度提供了明确的出处,从而使生成过程比标准注意力机制更易于解释。这些比对还可用于诊断和纠正系统错误。

例如,有时模型在根节点处错误地将“x {and,after} y”拆分为“x x”(或“y y”)。当我们在解码过程中手动禁止这种拆分时,性能全面提高了 1%-2%,展示了基于语法的模型的好处,它可以通过干预推导规则集来直接操纵模型生成。

下图是用这种方法做 Penn Treebank 上从主动到被动风格迁移任务的测试示例。从学习到的源解析器的诱导树显示在左侧,目标树推导显示在右侧。源树在语言上不正确,但模型仍然能够正确转换输出。

同样作者还用这种方法实现了机器翻译任务,可以进一步在原文中查看示例。虽然可以实现,但结果明显低于训练良好的 transformer 模型。

作者认为,就语法和其他具有符号组件的模型而言,与标准方法相比,这篇文章提出的方法能够更好地表达模型决策,它们可能在开发更可控和可解释的模型方面发挥作用,尤其是在协作人机系统的背景下。

或者,过去曾使用具有强归纳偏差的不灵活模型以各种方式引导(过度)灵活的神经模型,例如通过帮助生成额外数据或诱导结构来规范/增强模型。在这种情况下,探索如何将语法中的诱导结构与灵活的神经模型结合使用可能会很有趣。

更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

登录查看更多
0

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
【AAAI2022】知识图谱表示模型是如何进行外推的?
专知会员服务
22+阅读 · 2022年2月2日
ICLR 2022 评审出炉!来看看得分最高8份的31篇论文是什么!
专知会员服务
51+阅读 · 2021年5月30日
ICLR 2021 评审出炉!来看看得分最高的50篇论文是什么!
专知会员服务
40+阅读 · 2020年11月13日
【NeurIPS 2020】对图神经网络更切实的对抗式攻击
专知会员服务
23+阅读 · 2020年11月5日
【2020 最新论文】对比学习中什么应该不是对比的?
专知会员服务
38+阅读 · 2020年8月16日
【Contextual Embedding】什么时候上下文嵌入值得使用?
专知会员服务
15+阅读 · 2020年8月2日
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
132+阅读 · 2020年2月13日
最终篇!AAAI 2022值得读的NLP论文盘点
PaperWeekly
1+阅读 · 2022年3月2日
AAAI 2022上那些值得关注的NLP论文
PaperWeekly
1+阅读 · 2022年2月19日
AAAI 2022有哪些值得读的NLP相关论文?
PaperWeekly
0+阅读 · 2022年2月8日
论文浅尝 | SMBOP: Semi-autoregressive Bottom-up Semantic Parsing
开放知识图谱
0+阅读 · 2021年11月24日
论文浅尝 | 异构图 Transformer
开放知识图谱
7+阅读 · 2021年10月13日
ACL 2021 | 今年NLP的这些论文,你不能错过!
微软研究院AI头条
0+阅读 · 2021年8月3日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
102+阅读 · 2021年6月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
22+阅读 · 2020年9月16日
Arxiv
34+阅读 · 2020年1月2日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
VIP会员
相关VIP内容
【AAAI2022】知识图谱表示模型是如何进行外推的?
专知会员服务
22+阅读 · 2022年2月2日
ICLR 2022 评审出炉!来看看得分最高8份的31篇论文是什么!
专知会员服务
51+阅读 · 2021年5月30日
ICLR 2021 评审出炉!来看看得分最高的50篇论文是什么!
专知会员服务
40+阅读 · 2020年11月13日
【NeurIPS 2020】对图神经网络更切实的对抗式攻击
专知会员服务
23+阅读 · 2020年11月5日
【2020 最新论文】对比学习中什么应该不是对比的?
专知会员服务
38+阅读 · 2020年8月16日
【Contextual Embedding】什么时候上下文嵌入值得使用?
专知会员服务
15+阅读 · 2020年8月2日
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
132+阅读 · 2020年2月13日
相关资讯
最终篇!AAAI 2022值得读的NLP论文盘点
PaperWeekly
1+阅读 · 2022年3月2日
AAAI 2022上那些值得关注的NLP论文
PaperWeekly
1+阅读 · 2022年2月19日
AAAI 2022有哪些值得读的NLP相关论文?
PaperWeekly
0+阅读 · 2022年2月8日
论文浅尝 | SMBOP: Semi-autoregressive Bottom-up Semantic Parsing
开放知识图谱
0+阅读 · 2021年11月24日
论文浅尝 | 异构图 Transformer
开放知识图谱
7+阅读 · 2021年10月13日
ACL 2021 | 今年NLP的这些论文,你不能错过!
微软研究院AI头条
0+阅读 · 2021年8月3日
相关基金
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
相关论文
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
102+阅读 · 2021年6月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
22+阅读 · 2020年9月16日
Arxiv
34+阅读 · 2020年1月2日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Top
微信扫码咨询专知VIP会员