【ACL2020】基于语境的文本分类弱监督学习

会员服务 ·

【ACL2020】基于语境的文本分类弱监督学习

2021 年 1 月 12 日 深度学习自然语言处理

作者：丁磊 (北京工业大学)

paper: Contextualized Weak Supervision for Text Classification

高成本的人工标签使得弱监督学习备受关注。seed-driven 是弱监督学习中的一种常见模型。该模型要求用户提供少量的seed words，根据seed words对未标记的训练数据生成伪标签，增加训练样本。

但是由于一词多义现象的存在，同一个seed word会出现在不同的类别中，从而增加生成正确伪标签的难度；同时，单词w在语料库中的所有位置都使用一个的词向量，也会降低分类模型的准确性。

而本篇论文主要贡献有：

开发一种无监督的方法，可以根据词向量和seed words，解决语料库中单词的一词多义问题。
设计一种排序机制，消除seed words中一些无效的单词；并将有效的单词扩充进seed words中。

模型整体结构为：

第一步：使用聚类算法解决语料库中单词的一词多义问题

对于每一个单词 w, 假设w出现在语料库的n个不同位置, 分别为，使用K-Means算法将分成K类，这里K可理解为单词w的K个不同解释。

用下列公式计算K的值：

其中代表第i个聚类中心的向量。的计算方法如下：

这里s表示一个seed word，且表示s在语料库第i次出现，对应的词向量为。

sim() 表示余弦函数，median( )表示取中位数。

则对于任意，有

综上，一词多义问题解决算法如下：

使用上面算法，我们就可以将原始语料库转变为基于语境下的语料库：

第二步：对未标记的训练数据生成伪标签令表示文档d的伪标签；表示类别为的seed word 集合；表示单词w出现在文档d的词频

第三步：使用基于语境下的语料库进行文档分类

本篇论文使用Hierarchical Attention Networks (HAN) 进行文本分类。

第四步：设计排序函数，更新seed words我们设计出一个打分函数，用于表示单词w仅高频的出现在类别为的文档。分值越高，表示单词w对类别越重要。我们可以选择分值最高的前几个单词作为新的seed word。也可以剔除一些不重要的seed word。

其中：

表示类别为的文档的数量。表示类别为且含有单词w的文档的数量。表示在类别为的文档中，单词w的词频。

n为语料库D的文档总数目表示语料库D中含有单词w的文档的数量。

结果

我们的完整模型称为 ConWea,

而 ConWea-NoCon是 ConWea确实缺少第一步的变体。

ConWea-NoExpan是 ConWea确实缺少第四步的变体。

ConWea-WSD是将 ConWea第一步的方法换成Lesk算法。

推荐两个专辑给大家：

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析

整理不易，还望给个在看！

登录查看更多

相关内容

弱监督学习

关注 7

弱监督学习：监督学习的一种。大致分3类，第一类是不完全监督（incomplete supervision），即，只有训练集的一个（通常很小的）子集是有标签的，其他数据则没有标签。这种情况发生在各类任务中。例如，在图像分类任务中，真值标签由人类标注者给出的。从互联网上获取巨量图片很容易，然而考虑到标记的人工成本，只有一个小子集的图像能够被标注。第二类是不确切监督（inexact supervision），即，图像只有粗粒度的标签。第三种是不准确的监督（inaccurate supervision），模型给出的标签不总是真值。出现这种情况的常见原因有，图片标注者不小心或比较疲倦，或者某些图片就是难以分类。

【NAACL2021】信息解缠正则化持续学习的文本分类

专知会员服务

22+阅读 · 2021年4月11日

NLP基础任务《文本分类算法》大综述最新版, 68页超详细解析

专知会员服务

75+阅读 · 2020年7月30日

【ACL2020】基于图神经网络的文本分类新方法

专知会员服务

69+阅读 · 2020年7月12日

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日