NAACL 2022 | FACTPEGASUS:抽象摘要的真实性感知预训练和微调

2022 年 6 月 1 日 PaperWeekly


©作者 | 董冠霆
单位 | 北京邮电大学
研究方向 | 自然语言理解


论文标题:

FactPEGASUS: Factuality-Aware Pre-training and Fine-tuning for Abstractive Summarization

收录会议:

NAACL2022

论文链接:

https://arxiv.org/abs/2205.07830

代码链接:

https://github.com/meetdavidwan/factpegasus



Abstract & Intro


本文提出了 FACTPEGASUS,他是基于 PEGASUS 模型设计的一个生成式摘要模型,解决了 Pre-training 和 Finetuning 过程中的事实一致性问题,通过将事实性学习纳入整个训练 pipline:解决了在预训练阶段目标缺乏注意事实一致性的问题,以及在微调时下游数据集中存在幻觉。

作者认为目前摘要模型的预训练目标侧重于提高下游任务中产生的输出的质量,但往往忽略了事实一致性方面。原本的 PEGASUS 模型的预训练目标是 Gap sentence genration(GSG),通过 rouge 分数选择原文本中重要的句子作为伪摘要(即选中句和其它句子集的 ROUGE1-F1 来计算),他可以将任何的文本转换成为一个伪摘要数据集。而本文我们探索了将 rouge 和事实一致性度量 FactCC 作为选择标准的策略,以便模型学习生成包含输入文档最重要信息的句子,并保持对它的事实一致性。

接下来,作者提出了三个互补的模块,进一步解决微调过程中的事实问题:

1. corrector,消除黄金摘要中存在的幻觉,让模型可以再训练阶段不会学到事实不一致的信息;

2. constrastor,鼓励模型通过使用对比学习更好地区分事实摘要和非事实摘要;

3. connector 它通过在 finetune 时插入 mask token 来模拟预训练任务,这样预先训练的模型就可以将其生成事实摘要的知识直接适应于下游任务。

contributions:

1. 我们提出了一个基于生成式摘要的事实性感知的预训练目标,并研究了不同的句子选择策略对下游事实性的影响。 

2. 我们引入了三个互补的组件,以在微调过程中改善事实,纠正训练集中黄金摘要出现的幻觉,阻止训练过程中事实不一致的产生,并弥合 pretrain 和 finetune 之间的差距。在三个下游生成式摘要任务上,作者模型始终比强基线获得更好的事实性得分,并被人类评估证实。
 
3. 我们进行了彻底的事实一致性分析,并表明 FACTPEGASUS 在弱监督的情况下生成更多的事实摘要,减缓了当前模型观察到的事实性退化,并不是通过变得为抽取式摘要模式来提高事实性。



Method


2.1 Factuality-Aware Pre-training 


原始的 PEGASUS 模型的 pretrain 阶段为为 GSG 任务,通过计算每个被选择的句子和文档的其余部分之间的 rouge-1,分数最高的句子作为预训练阶段的伪摘要,并 mask 掉做一个预测。虽然原始策略选择的关键句子包含大部分的原文本事实信息,但不能保证所选的句子完全事实一致于原文本的其余部分。

下图中提供了一个说明性的例子,其中原始目标由于其较高的 rouge-1 分数而选择了句子 C。然而,这句话并不是对文件其余部分的事实总结,因为其他句子涉及西雅图的火灾,而 C 句只涉及丹佛的火灾。


▲ 主模型图

为了解决这个问题,作者扩展了原本 GSG 的训练目标,称之为 factGSG,作者将事实一致性作为衡量选择重要句子的额外标准。在选择关键句时作者引入 FactCC 指标(Kryscinski 等人,2020)作为事实标准,因为它与人类的事实判断高度相关,而且 FactCC 生成一个二进制预测,计算速度很快,其中得分为 1 表示所选的句子与文档的其余部分一致。factGSG 的另一个变化是重要句子的选择比例,作者没有遵循传统 GSG 预训练阶段选择 30% 的原文本作为摘要,而是只选择原文本中的一个句子,因为选择更多的句子会增加摘要中产生幻觉的可能性

▲ 选择伪摘要的标准

回到图 1 中的示例,FactCC 给非事实性的句子 C 分配了 0 分,因为丹佛的火灾不是由其他句子引起的。这导致句子 A 的得分高于非事实性句子,从而克服了原目标中的问题。

2.2 Factuality-Aware Fine-tuning


Connector: 因为预训练本质是一个类似 mlm 的任务,为了缓解预训练和微调之间的形式差距,因此,我们只需将 mask token 插入到下游 finetuning 数据集的输入文本中,以便模拟模型在预训练期间的模式,这可以被看作是一种 prompt 的形式,帮助模型引出预先训练过的模型的事实知识。作者在附录中讨论了这个 mask token 的最佳位置以及与 prompt 的相似性。

Corrector: 消除了参考摘要中的幻觉,这样这些摘要就不会称为引导模型在训练过程中学习到幻觉信息。

摘要中存在幻觉的定义:摘要文本的实体不能与原文中的某个实体匹配。

我们提出了三种具有不同程度攻击性 w.r.t. 的方法消除幻觉与不符合语法要求的句子,以下为三种方式:

replace: 通过定性分析,我们发现摘要中的一些幻觉实体部分出现在文件中。最突出的例子是名称的使用,其中摘要包含了该人的全名,而原文中只提到了第一个或最后一个名称(如图2)。作者提出了一种方法,可以在文档中找到具有相同 NER 标签的相似实体,并使用该方法来替代摘要中原始的幻觉实体。虽然这种方法不能纠正文档中缺少类似实体的幻觉,但语法性得到了保证。

remove: 一个更激进的方法是去除训练例子中的幻觉实体。

combined:结合前两种,确保参考摘要中没有幻觉的同时符合语法,我们首先替换所有可能的实体,然后在其余的实体上应用删除策略。

▲ cases

Contrastor: 为了更好地区分事实一致性摘要和非事实一致性摘要,作者引入一个对比学习目标。我们使用原文档 Di 作为锚点,并且只考虑参考摘要 Si 作为正样例。然后,我们创建一组非事实一致性摘要 Ni,形成负样例,其中我们用相同 NER 标签的随机实体替换事实性实体构建构建负样例,用两种变体来模拟外在的和内在的幻觉。如 Maynez 等人(2020)所述,外在幻觉是指存在于摘要中而不在原文本中的实体,而内在幻觉是指存在于原文本中但包含不准确信息或错位的实体。

▲ 对比学习损失,分子锚点与正样例的 cos 相似度,分母锚点与负样例的 cos 相似度


作者在文档和摘要之间进行对比学习,类似于 Lee等人(2021),而不是在摘要之间进行对比学习(Cao 和 Wang,2021),因为它更接近事实一致性的定义——摘要应该在文档的上下文中生成。最终损失由交叉熵损失 LCE 和对比损失之和计算:L=LCE+λLCL,其中λ是一个标量。



Experiment


▲ 在 XSum(XS)、WikiHow(WH)和 Gigaword(GW)数据集上的微调结果。在两个基线模型上,Factpegasus 持续改进了所有数据集的事实性指标,并且在 FactCC 上优于现有的事实性模型。由 DAE(标记为*)实现的 token error 和 sentence error 是一个不公平的比较,因为该模型在训练过程中优化了度量。

▲ xsum的人工评价指标

▲ 在 XSum 上进行微调消融。预训练模型 factGSG 的微调,并添加了不同的校正器和对比器的策略。然后我们结合两个模块中的最佳,最后添加连接器形成最终的模型。 


▲ 当将 connector 应用到我们的预训练模型(factGSG+mask)和 Pegasus(GSG+mask)时,zeroshot 的结果。FactGSG+mask 在所有指标上都优于 GSG+mask。


▲ zeroshot 和 fewshot 的结果。这些线表示每个模型在 0(0镜头)、1、10、100 和 1000 个示例上进行微调时的性能。



▲ 在 Gigaword 数据集上,实施一致性-抽象程度的权衡曲线,如红色虚线所示。我们绘制了每个模型通过 AMT 评估的平均忠诚度评分与其提取性水平。我们的模型位于图表之上,比 MLE 基线、DAE(Goyal 和 Durrett,2021)和损失截断(Kang 和桥本,2020)表现更好。




总结

我觉得这篇优点在于他的 motivation 和他的各个组件始终非常贴合,从 factGSG 的预训练到三个组件的作用,始终都是为提高事实一致性所设计,整体效果在 factCC 以及 token error,sentence error 上也很明显,但是感觉 rouge 分数上下降的有些明显,当然这对于摘要感觉很正常,而且消融中也能看出对比学习没有起到很大的作用,不过总体来说还是非常值得学习的。


更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

登录查看更多
0

相关内容

DeepMind | 通过去噪来进行分子性质预测的预训练
专知会员服务
12+阅读 · 2022年6月27日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
AAAI 2022 | 基于预训练-微调框架的图像差异描述任务
专知会员服务
17+阅读 · 2022年2月26日
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
37+阅读 · 2020年12月26日
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
34+阅读 · 2020年8月23日
NAACL 2022 | 机器翻译SOTA模型的蒸馏
PaperWeekly
1+阅读 · 2022年6月28日
论文浅尝 - ACL2022 | 面向推理阅读理解的神经符号方法
开放知识图谱
1+阅读 · 2022年3月21日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
21+阅读 · 2019年3月25日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员