COLING 2020 | 一种从科学文献中提取关键词的基于自蒸馏的联合学习方法

2020 年 11 月 21 日 深度学习自然语言处理

来自：艾达AI

Keyphrase extraction是提取一小组最能描述文档的短语任务。现有的大多数基准数据集都带有有限的带注释文档，使得训练复杂化的网络具有挑战性。本文提出一种基于自蒸馏思想的联合学习方法来利用大量未标记的科学文档，在Inspec和SemEval-2017两个公共基准上获得最新的结果。

论文链接：

https://arxiv.org/pdf/2010.11980.pdf

一、引言

Keyphrase extraction是从文档中自动提取一组代表性短语的任务，这些词能够简洁地描述文本主题内容，包含一定的信息量，对文本内容的理解有作用，主要包括单词、术语和短语。文本的关键词提取在基于文本的搜索、推荐以及数据挖掘领域有着很广泛的应用。

过去几年中，研究人员提出了许多用于关键词提取任务的方法，这些方法可以分为两大类：有监督的和无监督的技术。在存在足够的特定领域标记数据的情况下，有监督的关键短语提取方法通常优于无监督的方法。

大多数现有的用于关键短语提取的基准数据集通常都带有有限数量的带注释文档，这使得为该任务训练有效的深度学习模型具有挑战性。相比之下，数字图书馆在线存储了数以百万计的科学文章，涵盖了广泛的主题。尽管这些文章中有很大一部分具有作者提供的关键词，但其他大多数文章都缺少此类注释。

在本文中，为了有效利用线上可用的大量未标记文章，提出了一种基于自蒸馏思想的新型联合学习方法，并且使用了Inspec和SemEval-2017数据集来评估模型的有效性。

二、数据集

本文采用两个目标数据集：Inspec和SemEval-2017。Inspec数据集有1000/500/500条用于Train / dev / test拆分的科学文章摘要。SemEval-2017数据集有350/50/100条关于Train / dev / test拆分的科学文章。在实验中，我们使用KP20k数据集作为源数据集，因为它包含从各种在线数字图书馆收集的500,000多篇文章。

三、模型

Problem Formulation

将关键短语提取作为序列标记任务。采用序列标注方式不需要生成候选短语列表，然后对短语列表进行排名，抽取靠前的短语作为关键词，而是直接一次性预测目标输出。

令D =（， … ）是由n个tokens组成的文档，其中表示文档的第i个token。任务是预测标签y =（， … ）的序列，其中， ∈{{I, B, O}}是对应于每个token 的标签。标签B表示关键字短语的开始，标签I表示关键字短语的继续，标签O对应于不属于任何关键字短语。

Baseline Models

本文将BiLSTM-CRF架构用作基准架构，图1显示了基线模型层次概述。给定一系列输入tokens，模型首先使用基于Transformer的编码器为每个token形成上下文表示，并且在基于Transformer的表示之上进一步使用了双向LSTM，之后，使用全连接层将双向LSTM的输出映射到标签空间。最后，将线性链CRF应用于解码标签。

图 1 基线模型的高层次概述

Joint Learning based on Self-Distillation (JLSD)

图2显示了提出的自蒸馏方法的流程。将标记数据集称为目标数据集，将未标记数据集称为源数据集。

图2 自蒸馏的模型概述

首先使用带标签的样例训练teacher模型。之后，开始训练参数化与teacher模型相同的student模型。在每次训练迭代中，都会对一批原始标签样例和通过teacher模型对没有标签样例生成的伪标签进行抽样。

在训练过程中的任何时候，如果student模型的性能有所提高（即在目标数据集的验证集上获得更好的结果），将使用student模型的当前参数重新初始化teacher模型，然后继续训练student模型，并且使用之前相同的步骤。

图3 JSLD算法

图3描述了提出的JSLD算法。其中，T表示训练迭代次数，r是超参数，它确定每次迭代中要采样多少未标记的文档，D代表文档，y是对应的标签。

四、实验

本文实现了两个具有不同预训练上下文嵌入的基线模型：BERT（base-cased）和SciBERT（scivocab-cased）。并且分别与有监督的方法（表1，Inspec和SemEval-2017数据集）、无监督的方法（表2，Inspec数据集）以及与其他迁移学习技术的比较（表1，simple pretraining 、simple joint training），实验结果显示，通过应用本文提出的联合学习方法（JLSD），可以不断提高基线模型的性能。