AAAI 2021 | 幻灯片中文字的重要性预测赛亚军DeepBlueAI团队技术分享

2021 年 2 月 9 日 PaperWeekly

©PaperWeekly 原创 · 作者｜罗志鹏

单位｜深兰北京AI研发中心

2 月 2-9 日，AAAI 2021 于线上隆重召开。AAAI（美国人工智能协会）作为人工智能领域的主要学术组织之一，其主办的年会被列为国际人工智能领域的 A 类顶级会议。

来自深兰科技北京 AI 研发中心的 DeepBlueAI 团队在 Predicting Emphasis in Presentation Slides『预测幻灯片中的重点』挑战赛中斩获亚军, 同时也斩获了『首字母缩写词消歧』冠军, 本文带来『幻灯片中文字的重要性预测』挑战赛技术分享。

赛题介绍

本赛题是来自 AAAI-21 内容创作和设计研讨会（CAD21）的一个任务。这项任务的目的是设计用于自动选择强调词的方法，即在演示文稿幻灯片文本中选择要强调的候选词，以实现创作中的自动设计帮助。

希望参与者利用内容中的语义特征，以便预测哪些片段适合突出显示并为幻灯片创建者提供设计帮助。考虑下图所示的幻灯片。强调可以引导观众将注意力集中在几个单词上。观众不必阅读整个幻灯片，而只能阅读强调的部分，并保持对演讲者的关注。

比赛任务

本文介绍了我们在 AAAI-21 的比赛任务：Predicting Emphasis in Presentation Slides。在这个任务中，我们要预测幻灯片中每个单词的被强调程度，每个词给出一个强调值，可以视为回归任务或者二分类任务。

输入：来自 PPT 内容构成的一个句子 d = {w1, w2, ..., wn}。

输出：预测其中每一个词汇对应的强调值 e = {e1, e2, ..., en}。

评测指标

Matchm：对于测试集合中的每个实例 X ，我们根据真实标签选择 m∊（1,5,10）个单词的集合，其概率最大。类似地，我们根据预测的概率为每个 m 选择一个预测集。

我们将指标 Matchm 定义如下：

团队成绩

最终榜单：

比赛难点

（1）没有提供来自用户或设计其余部分（例如背景图像）的上下文。

（2）单词强调模式和作者的领域相关度较大。

由于存在这两个难点，难以判断标注结果和实际的偏差，无法对模型的偏差点做进一步分析，无法对训练结果做有针对的调整，只能尝试在数据集上拟合。

数据描述

比赛数据来自对 PPT 内容的标注，表 1 中显示了 AAAI-CAD21 共享任务中提供的数据集的数据集的统计信息。每个训练实例都是一张完整的 PPT，其中包含所有的词。此外，数据中还提供了幻灯片中的逐句划分。每个词有 8 个标注者的分别标注的结果。

数据集使用 BIO 标记方案进行了注释，其中每个注释者都将词标注为强调（B 或 I，B 代表加粗，I 代表斜体）或非强调（O）。此外，将每个词被标注为强调的频率作为其最终分数。标注方案和加权概率计算见表 3。有关任务和数据创建的更多信息，见 Shirani et al. (2021) [5] 。

	Total Slides	Total Sentences	Total Tokens
训练集	1241	8849	96934
验证集	180	1175	12822
测试集	355	2569	28108

▲ 表1：训练集、验证集、测试集描述

	最小长度	最大长度	平均长度
训练集	1241	8849	96934
验证集	180	1175	12822
测试集	355	2569	28108

▲ 表2：数据集句子长度

▲ 表3：数据集标注案例

数据处理和特征工程

结合模型和数据集的特点，我们构造了如下特征：

（1）首字母是否大写。如当强调词为专业名词、缩写时，首字母通常为大写。

（2）词汇是否被切分。使用预训练 transformers 模型时，词表是固定的，在当前任务中，因为每个词都需要预测概率，未登陆词不能忽略，将未登陆词切分为 subword，subword 的平均分作为最终预测分。

（3）切分后 subword 的位置。未登陆词切分为 subword 后，位于第几个位置。对于未登录词，不同的词可能由相同的 subword 组成，subword 在不同的位置具有不同的含义。

（4）词性。被强调词中名次动词出现次数较多，显然是一个很有用的特征。我们使用 nltk 工具的词性标注结果。

模型概述

建模：

（1）确定模型拟合目标：当前任务可建模为 8 个标签的多标签分类任务或者一个概率拟合任务，在尝试将其作为多标签分类任务后，发现其效果不好，而直接拟合其概率值效果较好。

（2）确定模型结构。分析完数据特点，确定其数据输入与常规的 nlp 任务一致，决定使用常规的 BERT+MLP 的结构。

（3）损失函数：拟合概率可尝试 BCELoss 和 KLLoss。

最终模型确定为：使用 BERT [1] 和 Roberta [2] 做编码，得到每个词对应的特征向量，与手动构造的特征向量做连接，过两层全连接，Sigmoid 激活得到其概率值。模型选择 BERT 预训练+微调的常规做法。损失函数使用 KLLoss 和 BCELoss，模型结构如图 1 ：

▲ 图1

模型训练：

（1）预训练模型选择。通常来说，比赛中一般不必考虑性能问题，直接选择目前效果最好预训练模型即可，还要考虑预训练模型所用语料和当前语料的联系。有条件的最好在当前语料上重新做自适应的预训练。我们没有重新做预训练，尝试使用了 scibert，bert-large，robert 和 ernie 等。

（2）伪标签。该方法的主旨思想其实很简单，首先，在标签数据上训练模型，然后使用经过训练的模型来预测无标签数据的标签，从而创建伪标签。此外，将标签数据和新生成的伪标签数据结合起来作为新的训练数据。具体做法为：将测试集使用在训练集上训练好的模型做预测，将预测结果加入训练集中，重新训练模型。

（3）对抗学习。它在训练中构造了一些对抗样本加入到原数据集中，希望增强模型对对抗样本的鲁棒性。我们在模型训练的时候加入了对抗学习，所使用的对抗学习方法是 Fast Gradient Method（FGM） [3] 。

（4）多模型融合。使用 k 这交叉验证和对抗训练等不同的参数和技巧训练得到许多不同的模型，最后将所有模型的预测值取平均作为最终的预测值。

（5）未登陆词处理。由于预训练模型的词表示固定的，难免出现未登录词，而当前任务需要对每个词预测概率，未登录词不可忽略。对于未登陆词，训练时：将其切分为 subword，并将当前词的分数作为每个 subword 的分数。在预测时：对所有 subword 的分数取平均作为最终预测分数。

具体使用的预训练模型：scibert,bert-large, ernie 三个。在三个模型上都做了训练，最终将所有模型结果做了融合。最终得分 0.519，排名第二。

总结与讨论

目前 NLP 比赛基本都是 BERT 加微调的模式。选择一个预训练模型，确定模型需要拟合的目标，参考目前最佳的几个方案建模，对比各个方案的分数。选择一个效果较好的模型进一步优化，加入多折交叉验证、对抗训练、模型融合等技巧。一般都能取得不错的效果。

例如在本次比赛中，我们首先尝试将任务建模为多分类，将 8 个标注者的标注结果作为多标签分类问题去拟合 8 个标签，发现效果不好，转而尝试直接拟合概率值，效果不错，基本确定模型结构。在此基础上选择 scibert, bert-large, ernie 等预训练模型，使用对抗训练、模型融合等提升分数，尝试 KLLoss 和 BCELoss，最终取得第二。

团队负责人介绍

罗志鹏，深兰科技集团技术副总裁/深延科技 CTO，毕业于北京大学，曾任职于微软亚太研发集团。现主要负责公司 AI 平台相关研发工作，带领团队已在 CVPR、ICCV、ECCV、KDD、NeurIPS、SIGIR 等数十个世界顶级会议挑战赛中获得近三十项冠军，以一作在 KDD、WWW 等国际顶会上发表论文，具有多年跨领域的人工智能研究和实战经验。

参考文献

1. Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

2. Liu Y, Ott M, Goyal N, et al. Roberta: A robustly optimized bert pretraining approach[J]. arXiv preprint arXiv:1907.11692, 2019.

3. Miyato, T., Dai, A.M., & Goodfellow, I.J. (2016). Virtual Adversarial Training for Semi-Supervised Text Classification. ArXiv, abs/1605.07725.

4. Zhang, Z., Han, X., Liu, Z., Jiang, X., Sun, M., & Liu, Q. (2019). ERNIE: Enhanced Language Representation with Informative Entities. ACL.

5. Shirani, A.; Tran, G.; Trinh, H.; Dernoncourt, F.; Lipka, N.; Asente, P.; Echevarria, J.; and Solorio, T. 2021. Learning to Emphasize: Dataset and Shared Task Models for Selecting Emphasis in Presentation Slides. In Proceedings of CAD21 workshop at the Thirty-fifth AAAI Conference on Artificial Intelligence (AAAI-21).

更多阅读