COLING 2022 | CPSUM：低资源场景下的半监督文本摘要抽取式模型

2022 年 10 月 12 日 PaperWeekly

©作者 | 毛乾任等

单位 | 北京航空航天大学

本文主要介绍我们在自然语言处理领域被 COLING 2022 接收的工作。我们提出了CPSUM，一种解决低资源场景的半监督文本摘要抽取式模型。该模型引入了数据加噪增强的一致性学习方法与熵约束伪标签学习方法，仅需要极小规模的有标签数据，结合大规模的无标签数据进行训练，较好利用了低熵分布的无标签数据来提高摘要模型决策边界的精准性，获得比有监督学习更强的泛化性能，并且极大地减少了自动摘要模型对标注数据的依赖。

论文标题：

Noise-injected Consistency Training and Entropy-constrained Pseudo Labeling for Semi-supervised Extractive Summarization

收录会议：

COLING 2022

代码链接：

https://github.com/OpenSUM/CPSUM

背景与挑战

当前比较主流的摘要任务数据集，例如 CNN/DailyMail、BBC XSUM 等，都需要大量的有标签训练数据，无论是生成式的人工摘要撰写，还是抽取式的句子分类标注，其数据的构建规模与标注成本巨大。半监督学习（SSL）旨在利用少量有标签数据和大量无标签数据进行模型训练。

过去的几十年间，SSL 在多个领域都引起了广泛的研究兴趣，包括协同学习（Co-Training）、自集成学习（Pi-model，Temporal Ensembling，Mean-Teacher）、一致性正则（Consistency Training）等方法陆续被提出。本文聚焦于少标注的低资源场景，仅依赖少量有标签数据并结合大量的无标签数据，对半监督抽取式摘要任务进行了一系列的探索。主要涉及两个方面：

1. 半监督学习解决监督学习模型的泛化能力不强和无监督学习模型的不精确等问题；

2. 数据增强加噪的一致性学习与熵约束的伪标签学习，提高模型决策边界的精确性。

方法

首先，CPSUM 在一致性学习框架下，引入少量有标签数据，并加噪大量无标签数据进行一致性正则训练，该过程为无标注数据增强加噪的一致性训练过程。其次，CPSUM 集成了一种熵约束的伪标签学习方法，该过程包含了一种信息熵约束的伪标签筛选方法。接下来简要介绍我们的模型细节。

2.1 数据增强加噪的一致性学习

2.1.1 数据增强加噪

数据增强的目的是给无标柱数据获取加噪数据，在数据增强阶段，我们沿用了 TinyBERT 中的数据增强做法。对于 Single-piece Word，我们将源文本进行遮盖，进行 BERT 预训练预测后，用预测结果来替换原有的词语，以此获得增强样本。对于 Multiple-pieces Word，我们直接采用 Glove 中预训练好的词向量进行替换。至此，准备好了有标签、无标签数据，以及每个无标签数据对应的增强数据。

2.1.2 一致性学习

一致性训练框架包括有监督训练与无监督一致性训练过程。模型的输入包括有监督的训练样本，以及若干组无监督的样本及其对应的增强数据。有监督损失为网络输出的分布与真实分布进行交叉熵：

无监督损失即一致性训练损失，是无监督样本及其增强样本对应的两个模型预测分布，并进行均方差损失计算，目的是让这两个分布尽可能相似：

在无监督损失前的平衡系数，便于调整有监督和无监督训练之间的重要程度，最终训练的总损失为：

2.2 熵约束的伪标签选择

2.2.1 自适应熵约束伪标签选择

无标签数据在被用于模型正则的一致性训练后，是否可以利用高置信度的预测结果作为标注进一步训练模型呢？答案是肯定的，事实上，在前向传播和损失计算完成之后，高置信度的预测结果可以作为伪标签数据被模型再次利用，这样做的好处是为模型带来更多的分布近似标签数据。然而现有的伪标签学习方法多为设置阈值进行伪标签筛选，存在一定的噪声，容易造成错误传播。

我们提出熵约束的自动伪标签筛选机制，用有监督输出结果的熵来约束无监督输出结果的熵，并选择低熵样本作为高置信度的伪标签数据。具体而言，在每一训练时刻，有监督部分的模型预测值与无监督部分的模型预测值，通过 Softmax 归一化后，输出结果的熵分别为：

当无监督样本输出分布的平均熵小于有监督样本时，即（为维度归一化因子）时，可以视为该无监督结果的置信度是较高的，将其作为新的有监督数据保留下来。这里我们强调使用的是平均熵，即在原有熵的基础上除以了输出分布的维度大小，起到了归一化的作用，避免了维度差异带来的结果影响。

2.2.2 概率梯度上升的二次过滤

在模型训练初期，模型的训练结果的正确性较差，因为有监督输出分布的平均熵本身可能较高，因此会将更多的无监督噪声样本给筛选进去。为了防止这样的现象发生，我们还加入了一个概率梯度上升的伪标签二次过滤机制。

具体而言，我们设置一种 Ramp-up 的伪标签筛选方法，随着训练时刻线性上升的概率值，对于刚刚被筛选出来的伪标签，有概率被最终归为有监督样本，而有概率被丢弃掉。这样能够在一定程度上使得网络训练初期的伪标签被更少地选择出来，当模型训练趋于稳定，预测的准确性等到保障后，再由模型通过熵约束自动选择更多的伪标签进行有监督训练。

实验结果

主实验部分 ，我们采用了两个主流抽取式摘要数据集，分别是长文本摘要数据集 CNN/DailyMail 和短文本摘要数据集 BBC XSUM，并将有监督数据集规模分别设置为 10、100、1000。同时，我们还测试了软标签和硬标签两种类伪标签的性能影响。

1. 所有的数据集规模下都实现了显著的性能提升，相比于纯有监督训练，当有监督数据量为 100 时，效果尤为显著，在 ROUGE-1, ROUGE-2 和 ROUGE-L 这三个指标上分别实现了 1.17、0.86 和 1.09 个点的性能提升。

2. 硬标签比软标签的性能更为优异，因为硬标签相对于软标签而言，带有的噪声更加少。

对于 CPSUM 模型的不同组成部分，我们进行了消融实验分析。 发现在一致性正则框架下，引入我们提出的自适应熵约束机制，以及高置信度伪标签进行二次筛选之后，模型的整体性能提升最为明显，说明了熵约束伪标签学习方法的有效性。

可视化展示 ，随着伪标签的加入有效的缓解了少标注下模型的过拟合现象（开始跳出局部最优解）。同时，相比于不经过任何筛选的伪标签学习过程，经过熵约束筛选后的伪标签能够更有效地提升整体模型的性能（红色曲线上升）。

总结

在本文中，我们实现了一种少标注的半监督学习的低资源抽取式摘要方法。有效地利用无标注数据的半监督学习方法提高模型在极少标注下的抽取式摘要性能。通过数据增加噪的噪声注入的一致性训练和平均熵来约束的伪标签学习，我们的模型获得了比有监督学习更强的泛化性能。未来工作也将持续关注低资源场景的自然语言理解与自然语言生成任务。