Multi-label text classification refers to the problem of assigning each given document its most relevant labels from the label set. Commonly, the metadata of the given documents and the hierarchy of the labels are available in real-world applications. However, most existing studies focus on only modeling the text information, with a few attempts to utilize either metadata or hierarchy signals, but not both of them. In this paper, we bridge the gap by formalizing the problem of metadata-aware text classification in a large label hierarchy (e.g., with tens of thousands of labels). To address this problem, we present the MATCH solution -- an end-to-end framework that leverages both metadata and hierarchy information. To incorporate metadata, we pre-train the embeddings of text and metadata in the same space and also leverage the fully-connected attentions to capture the interrelations between them. To leverage the label hierarchy, we propose different ways to regularize the parameters and output probability of each child label by its parents. Extensive experiments on two massive text datasets with large-scale label hierarchies demonstrate the effectiveness of MATCH over state-of-the-art deep learning baselines.


翻译:多标签文本分类是指分配每个特定文件的标签的问题。 通常, 给定文件的元数据和标签的等级分级在现实世界应用程序中都有。 但是, 大多数现有研究只侧重于文本信息的建模, 几次尝试使用元数据或等级信号, 但没有同时使用这两种信号。 在本文中, 我们通过在大型标签等级( 例如, 贴上数万个标签) 中正式处理元数据识别文本分类问题来弥合差距。 为了解决这个问题, 我们介绍了 MATCH 解决方案 -- -- 一个利用元数据和等级信息的端到端框架。 要整合元数据, 我们预先将文本和元数据嵌入同一空间, 并且利用完全相连的注意力来捕捉它们之间的相互关系。 为了利用标签等级, 我们建议了不同的方法来规范每个儿童标签的参数和输出概率。 在两个大型文本数据集上进行广泛的实验, 大型标签分级显示 MATCH 相对于状态深层学习基线的有效性 。

12
下载
关闭预览

相关内容

文本分类(Text Classification)任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。
首篇「课程学习(Curriculum Learning)」2021综述论文
专知会员服务
48+阅读 · 2021年1月31日
【干货书】机器学习速查手册,135页pdf
专知会员服务
121+阅读 · 2020年11月20日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
MIT-深度学习Deep Learning State of the Art in 2020,87页ppt
专知会员服务
61+阅读 · 2020年2月17日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
已删除
将门创投
5+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
4+阅读 · 2019年12月2日
Arxiv
9+阅读 · 2019年4月19日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
11+阅读 · 2018年10月17日
Text classification using capsules
Arxiv
5+阅读 · 2018年8月12日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
已删除
将门创投
5+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
4+阅读 · 2019年12月2日
Arxiv
9+阅读 · 2019年4月19日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
11+阅读 · 2018年10月17日
Text classification using capsules
Arxiv
5+阅读 · 2018年8月12日
Top
微信扫码咨询专知VIP会员