NAACL 2022 | FACTPEGASUS：抽象摘要的真实性感知预训练和微调

会员服务 ·

NAACL 2022 | FACTPEGASUS：抽象摘要的真实性感知预训练和微调

2022 年 6 月 1 日 PaperWeekly

©作者 | 董冠霆

单位 | 北京邮电大学

研究方向 | 自然语言理解

论文标题：

FactPEGASUS: Factuality-Aware Pre-training and Fine-tuning for Abstractive Summarization

收录会议：

NAACL2022

论文链接：

https://arxiv.org/abs/2205.07830

代码链接：

https://github.com/meetdavidwan/factpegasus

Abstract & Intro

本文提出了 FACTPEGASUS，他是基于 PEGASUS 模型设计的一个生成式摘要模型，解决了 Pre-training 和 Finetuning 过程中的事实一致性问题，通过将事实性学习纳入整个训练 pipline：解决了在预训练阶段目标缺乏注意事实一致性的问题，以及在微调时下游数据集中存在幻觉。

作者认为目前摘要模型的预训练目标侧重于提高下游任务中产生的输出的质量，但往往忽略了事实一致性方面。原本的 PEGASUS 模型的预训练目标是 Gap sentence genration（GSG），通过 rouge 分数选择原文本中重要的句子作为伪摘要（即选中句和其它句子集的 ROUGE1-F1 来计算），他可以将任何的文本转换成为一个伪摘要数据集。而本文我们探索了将 rouge 和事实一致性度量 FactCC 作为选择标准的策略，以便模型学习生成包含输入文档最重要信息的句子，并保持对它的事实一致性。

接下来，作者提出了三个互补的模块，进一步解决微调过程中的事实问题：

1. corrector，消除黄金摘要中存在的幻觉，让模型可以再训练阶段不会学到事实不一致的信息；

2. constrastor，鼓励模型通过使用对比学习更好地区分事实摘要和非事实摘要；

3. connector 它通过在 finetune 时插入 mask token 来模拟预训练任务，这样预先训练的模型就可以将其生成事实摘要的知识直接适应于下游任务。

contributions：

1. 我们提出了一个基于生成式摘要的事实性感知的预训练目标，并研究了不同的句子选择策略对下游事实性的影响。

2. 我们引入了三个互补的组件，以在微调过程中改善事实，纠正训练集中黄金摘要出现的幻觉，阻止训练过程中事实不一致的产生，并弥合 pretrain 和 finetune 之间的差距。在三个下游生成式摘要任务上，作者模型始终比强基线获得更好的事实性得分，并被人类评估证实。

3. 我们进行了彻底的事实一致性分析，并表明 FACTPEGASUS 在弱监督的情况下生成更多的事实摘要，减缓了当前模型观察到的事实性退化，并不是通过变得为抽取式摘要模式来提高事实性。

Method

2.1 Factuality-Aware Pre-training

原始的 PEGASUS 模型的 pretrain 阶段为为 GSG 任务，通过计算每个被选择的句子和文档的其余部分之间的 rouge-1，分数最高的句子作为预训练阶段的伪摘要,并 mask 掉做一个预测。虽然原始策略选择的关键句子包含大部分的原文本事实信息，但不能保证所选的句子完全事实一致于原文本的其余部分。

下图中提供了一个说明性的例子，其中原始目标由于其较高的 rouge-1 分数而选择了句子 C。然而，这句话并不是对文件其余部分的事实总结，因为其他句子涉及西雅图的火灾，而 C 句只涉及丹佛的火灾。

▲ 主模型图

为了解决这个问题，作者扩展了原本 GSG 的训练目标，称之为 factGSG，作者将事实一致性作为衡量选择重要句子的额外标准。在选择关键句时作者引入 FactCC 指标（Kryscinski 等人，2020）作为事实标准，因为它与人类的事实判断高度相关，而且 FactCC 生成一个二进制预测，计算速度很快，其中得分为 1 表示所选的句子与文档的其余部分一致。factGSG 的另一个变化是重要句子的选择比例，作者没有遵循传统 GSG 预训练阶段选择 30% 的原文本作为摘要，而是只选择原文本中的一个句子，因为选择更多的句子会增加摘要中产生幻觉的可能性

▲ 选择伪摘要的标准

回到图 1 中的示例，FactCC 给非事实性的句子 C 分配了 0 分，因为丹佛的火灾不是由其他句子引起的。这导致句子 A 的得分高于非事实性句子，从而克服了原目标中的问题。

2.2 Factuality-Aware Fine-tuning

Connector： 因为预训练本质是一个类似 mlm 的任务，为了缓解预训练和微调之间的形式差距，因此，我们只需将 mask token 插入到下游 finetuning 数据集的输入文本中，以便模拟模型在预训练期间的模式，这可以被看作是一种 prompt 的形式，帮助模型引出预先训练过的模型的事实知识。作者在附录中讨论了这个 mask token 的最佳位置以及与 prompt 的相似性。

Corrector： 消除了参考摘要中的幻觉，这样这些摘要就不会称为引导模型在训练过程中学习到幻觉信息。

摘要中存在幻觉的定义：摘要文本的实体不能与原文中的某个实体匹配。

我们提出了三种具有不同程度攻击性 w.r.t. 的方法消除幻觉与不符合语法要求的句子，以下为三种方式：

replace：通过定性分析，我们发现摘要中的一些幻觉实体部分出现在文件中。最突出的例子是名称的使用，其中摘要包含了该人的全名，而原文中只提到了第一个或最后一个名称（如图2）。作者提出了一种方法，可以在文档中找到具有相同 NER 标签的相似实体，并使用该方法来替代摘要中原始的幻觉实体。虽然这种方法不能纠正文档中缺少类似实体的幻觉，但语法性得到了保证。

remove：一个更激进的方法是去除训练例子中的幻觉实体。

combined：结合前两种，确保参考摘要中没有幻觉的同时符合语法，我们首先替换所有可能的实体，然后在其余的实体上应用删除策略。

Contrastor： 为了更好地区分事实一致性摘要和非事实一致性摘要，作者引入一个对比学习目标。我们使用原文档 Di 作为锚点，并且只考虑参考摘要 Si 作为正样例。然后，我们创建一组非事实一致性摘要 Ni，形成负样例，其中我们用相同 NER 标签的随机实体替换事实性实体构建构建负样例，用两种变体来模拟外在的和内在的幻觉。如 Maynez 等人（2020）所述，外在幻觉是指存在于摘要中而不在原文本中的实体，而内在幻觉是指存在于原文本中但包含不准确信息或错位的实体。

作者在文档和摘要之间进行对比学习，类似于 Lee等人（2021），而不是在摘要之间进行对比学习（Cao 和 Wang，2021），因为它更接近事实一致性的定义——摘要应该在文档的上下文中生成。最终损失由交叉熵损失 LCE 和对比损失之和计算：L=LCE+λLCL，其中λ是一个标量。

Experiment

▲ 在 XSum（XS）、WikiHow（WH）和 Gigaword（GW）数据集上的微调结果。在两个基线模型上，Factpegasus 持续改进了所有数据集的事实性指标，并且在 FactCC 上优于现有的事实性模型。由 DAE（标记为*）实现的 token error 和 sentence error 是一个不公平的比较，因为该模型在训练过程中优化了度量。

总结

我觉得这篇优点在于他的 motivation 和他的各个组件始终非常贴合，从 factGSG 的预训练到三个组件的作用，始终都是为提高事实一致性所设计，整体效果在 factCC 以及 token error，sentence error 上也很明显，但是感觉 rouge 分数上下降的有些明显，当然这对于摘要感觉很正常，而且消融中也能看出对比学习没有起到很大的作用，不过总体来说还是非常值得学习的。

更多阅读