ACL 2020 | 多跳问答的基于对齐的无监督迭代解释检索方法

会员服务 ·

ACL 2020 | 多跳问答的基于对齐的无监督迭代解释检索方法

2020 年 6 月 18 日 PaperWeekly

©PaperWeekly 原创 · 作者｜舒意恒

学校｜南京大学硕士生

研究方向｜知识图谱

论文标题： Unsupervised Alignment-based Iterative Evidence Retrieval for Multi-hop Question Answering

论文来源： ACL 2020

论文链接： https://arxiv.org/abs/2005.01218

背景

机器学习算法的可解释性仍然是机器学习在真实世界应用中的一个关键的未解决的问题。作者认为，当前许多 QA 的神经网络方法的研究缺乏对推断过程的人类可理解的解释，而这阻碍了这些方法应用于真实的应用中。

该文关注于多跳、多项选择的问答系统，并尝试提供可解释性。这类问答系统的特点是，答案文本可能不是来自于实际的知识库文段；并且在给定问题时，要求该问答系统具有能够将候选答案链接起来的推理能力。

该文将所提出的模型称为 AIR (Alignment-based Iterative Retriever). 它尝试从非结构化的知识库中，检索高质量的解释语句。即该研究关注的是检索到一个问答的解释，而不是检索到一个问题的答案。作者认为，该方法提供的解释不仅有助于解释回答一个问题的推理步骤，并且也能显著提升问答系统本身的性能。

1.1 QA 的可解释性

关注于可解释性的 QA 方法可以大致分为三个主要类别：

监督方法，要求训练时标注解释。然而，标签数据不总是可用的，并且标签当中可能含有噪音。
潜在方法，根据答案质量抽取解释，不需要显式的训练数据。例如强化学习和 PageRank 的思路。这类方法通常需要更多的问题-答案对数据。
无监督方法，使用无监督算法来抽取解释。

如图是一个需要多跳推理的样例问题。AIR 检索到的两个平行的解释链条提供了不完美的，但是与给定问题相关的解释。

方法

与监督方法不同，AIR 是完全无监督的，并且可以轻松地从小文本的候选解释上扩展到大规模的知识库。

该方法检索解释语句的过程可以简单理解为一个迭代过程，在每轮迭代中，该方法使用对齐模型来找到针对当前查询在嵌入空间中最接近的解释语句。在每轮迭代后，该方法调整它的查询，以关注当前解释集合中缺失的信息。

该文所提出的 QA 方法包含两个组件：

无监督的迭代组件：在给定查询时，检索解释链。
答案分类组件：给定原问题和已检索到的解释，将候选答案分类为正确或错误。

下面分别对这两个组件进行简介。

2.1 迭代的解释检索

给定查询，AIR 迭代地构建解释链。AIR 初始化查询为拼接后的问题和候选答案。然后，AIR 迭代地重复两个步骤：

它使用对齐 -IR 方法 [1] 检索给定当前查询的最突出的解释句子。解释句子来自于数据集特定的知识库。
它调整查询以关注于缺失的信息，即当前解释链条没有覆盖的关键词。

AIR 可以动态地将新术语添加到查询中。从之前检索到的解释中推导出多跳的检索。这两步反复进行，直到达到与参数无关的终止条件为止。

如图展示了 AIR 在 MultiRC 上迭代检索解释句子的情况。

2.1.1 对齐

为了计算给定查询和知识库中的一个句子的相似度，AIR 使用一种已有的无监督的对齐方法 [1] ，它仅使用 GloVe 嵌入 [2] 。作者表示，BERT 生成的嵌入效果显著超越 GloVe，但它生成的代价是十分高的。

对齐方法计算查询中的每个 token 和给定知识库句子中的每个 token 的词嵌入之间的余弦相似度，得到一个余弦相似度分数矩阵。对于每个查询 token，算法通过最大池化选择解释文本中最类似的 token。

最终，计算此余弦相似度得分向量与包含查询 token 的 IDF 值的向量之间的逐元素（element-wise）点积，以产生给定查询和支持段落的整体对齐分数：

其中，对起加权的作用。

2.1.2 剩余项

AIR 的查询重构造是通过剩余项驱动的，即暂时没有被前 i 个解释构成的集合覆盖的查询项的集合。

其中，表示查询项的非重复集合，表示第 k 个解释的非重复项集合，表示 i 个解释句子的集合。

作者将对齐方式的软匹配用于包含操作：如果查询项与对齐项的余弦相似度大于相似度阈值（作者为所有实验使用 = 0.95），则认为该查询项包含在对齐项中，从而确保两个术语在嵌入空间中相似。

2.1.3 覆盖

作者提出一个指标用于度量查询关键字被检索到的解释链覆盖的程度：

2.1.4 AIR 检索过程

查询重构造：在每次迭代 j，AIR 重新构造查询以包含未被当前解释链条覆盖的术语。

停止条件：AIR 在满足以下两个条件中的任一条件时停止迭代地检索解释。

上一次解释检索的迭代中，没有发现新的查询项，即
所有查询项都被解释覆盖，即

2.2 答案分类

AIR 的解释链可以输入到任何监督的答案分类方法中，作者在实验中使用 RoBERTa。

以 MultiRC 为例，作者将查询（问题和候选答案文本组合而成）和解释文本拼接，并在两段文本中使用 [SEP]。然后对 [CLS] 标签使用 sigmoid 函数执行二分类任务（正确答案与否）。

在依赖大知识库的 QA 任务中，可能会出现：存在多个支持正确答案的解释链。为了利用这种答案分类的冗余性，作者扩展 AIR 以提取平行的解释链条。

即提取 N 条平行的解释链条，运行 AIR N 次，且确保每条链条的第一个解释句子是不同的。在检索出 N 条平行解释链后，该方法将所有单独的解释句子联合起来，创建该候选答案的支持解释文本。

实验与分析

作者在 MultiRC [3] 和 QASC [4] 两个数据集上进行了广泛的实验。

如图是 MultiRC 数据集上开发和测试集的实验结果。

AIR 在 MultiRC 上超越了以往的方法，包括有监督的方法，并且平行解释链的方法提升了模型表现。

如图是 QASC 数据集上的 QA 和解释选择的表现。AIR 在 QASC 上同样取得了最优效果，并且平行解释链的方法提升了模型表现。

3.1 基线算法

在之前介绍的算法外，作者还引入了一些基线算法。

MultiRC 上的 3 个基线算法：

将所有的段落文本馈送给 RoBERTa 分类器
使用对齐方法 [5] 检索得到 top-k 句子，该方法用于比较 AIR 的查询重构造
使用监督的 RoBERTa 分类器进行训练，为每个查询选择正确的解释

QASC 上的 2 个基线算法：

不包含任何解释
使用对齐方法检索得到 top-k 句子

小结

作者介绍了一种简单的、无监督的问答解释检索方法。该方法结合了三个想法：(a) 一种无监督的对齐方法，利用 GloVe 嵌入将问题和答案与解释句子进行软对齐；(b) 一个迭代过程，该迭代过程将重点放在现有解释未覆盖的查询剩余项上；(c) 一个简单的停止条件，当给定问题和候选答案中的所有项都被检索到的解释句子集合覆盖时，该迭代过程结束。

作者认为，尽管该方法简单，且只依赖于 GloVe 嵌入（不使用 BERT 的原因是生成嵌入的计算代价过高），但在两个数据集上该方法在解释选择任务的表现上优于以往方法。

参考文献

[1] Vikas Yadav, Steven Bethard, and Mihai Surdeanu. 2019a. Alignment over heterogeneous embeddings for question answering. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, (Long Papers), Minneapolis, USA. Association for Computational Linguistics.

[2] Jeffrey Pennington, Richard Socher, and Christopher Manning. 2014. Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 1532–1543.

[3] Daniel Khashabi, Snigdha Chaturvedi, Michael Roth, Shyam Upadhyay, and Dan Roth. 2018a. Looking beyond the surface: A challenge set for reading comprehension over multiple sentences. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 252–262.

[4] Tushar Khot, Peter Clark, Michal Guerquin, Peter Jansen, and Ashish Sabharwal. 2019a. Qasc: A dataset for question answering via sentence composition. arXiv preprint arXiv:1910.11473.

[5] Sun Kim, Nicolas Fiorini, W John Wilbur, and Zhiyong Lu. 2017. Bridging the gap: Incorporating a semantic similarity measure for effectively mapping pubmed queries to documents. Journal of biomedical informatics, 75:122–127.

更多阅读