会员服务 ·

AAAI 2021 | 利用标签之间的混淆关系，提升文本分类效果

2021 年 1 月 30 日 PaperWeekly

©PaperWeekly 原创 · 作者｜张琨

学校｜中国科学技术大学博士生

研究方向｜自然语言处理

论文标题：

Label Confusion Learning to Enhance Text Classification Models

论文作者：

Biyang Guo, Songqiao Han, Xiao Han, Hailiang Huang, Ting Lu

论文链接：

https://arxiv.org/abs/2012.04987

代码链接：

https://github.com/beyondguo/label_confusion_learning

动机

文本分类是 NLP 领域一个十分基础但非常重要的任务。目前针对文本分类的主流研究方法是一个复杂的模型用于文本表示，一个简单的分类层预测标签分布，一个交叉熵用于衡量预测概率分布和真实 one-hot 之间的损失。

更多的工作集中于第一步。这其实是有问题的，主要包含两个问题：

1. one-hot 的 label 表示假设标签之间是独立的，假设太强，忽略了标签之间的相互重叠关系；

2. one-hot 的 label 表示方法不仅丢失了标签包含的大量语义信息，同时会导致模型过于自信，在处理标签有噪声或者标签混淆度比较高的数据时出现问题。因此，需要对标签所包含的信息进行充分的处理和利用。

基于这样的一个出发点，本文提出了一种称为 Label Confusion Model（LCM）的方法。

方法

下图就是本文提出的模型的框架。具体而言，本文提出的框架包含两个部分：1）传统的类别预测模型，如左图所示；2）本文提出的充分利用标签信息的 LCM 方法，如右图所示，接下来，将会对本文提出的方法进行详细介绍。

2.1 Basic Predictor

这部分和一般的方法是没有不同，输入过来后使用不同的编码器进行处理，例如 CNN, RNN, BERT 之类的，然后得到句子语义的表征，最后通过一个 softmax 对数据进行分类，该过程可以表示为如下形式：

2.2 Label Confusion Model（LCM）

这部分是本文的重点，本文认为直接使用 one-hot 来表示标签一方面造成了标签信息的浪费，一方面又会误导模型过于自信，而且模型无法处理便签混淆或者有噪音的情况。为此，本文设计了 LCM 方法用于对标签信息进行充分的建模。

具体而言，首先是一个标签编码器，例如使用 MLP, DNN 之类的对输入标签进行编码，得到标签表示的向量。接下来是一个相似度计算模块（SLD），该模块首先通过一个相似度计算层计算当前数据句子和每个标签之间的相似度，然后使用一个带 softmax 的简单神经网络计算得到标签的混淆分布表示（LCD），这个表示能够在考虑当前输入的情况下，充分建模标签之间的依赖关系。相似度计算更有依据了。

在此基础上，通过一个权重系数和标签的原始 one-hot 表示相加，再通过一个 softmax 进行归一化，就得到了标签的模拟分布表示（因为标签的真实分布表示无法获取）该过程可以表示为如下形式：

到这里可以发现模型预测的标签概率分布是一个向量，第二步得到的标签的模拟分布也是一个向量，为了让预测模型能够充分利用这些信息，本文在这里使用一个 KL 散度约束这两个向量表示要离得近一些，具体可以表示为如下形式：

至此，本文的整体技术细节完成。从这里可以看出，本文主要是针对标签的分布以及标签之间的关系进行细致的建模，在考虑输入的情况下分析标签之间的依赖关系，从而实现动态的输入感知的标签编码，进而帮助模型充分利用标签数据。

实验

在实验部分，本文做了几组实验：1）使用不同类型的基本预测模型，然后再加上 LCM，对比前后的模型效果；2）为了充分验证模型能够处理标签混淆以及标签含噪音的情况，本文也设计了几个含有不同标签混淆度，不同标签噪声的模型，来进一步验证模型的效果；3）本文还通过一些可视化进一步展现加上 LCM 之后模型的性能。具体结果如下图：