Weakly-supervised text classification aims to induce text classifiers from only a few user-provided seed words. The vast majority of previous work assumes high-quality seed words are given. However, the expert-annotated seed words are sometimes non-trivial to come up with. Furthermore, in the weakly-supervised learning setting, we do not have any labeled document to measure the seed words' efficacy, making the seed word selection process "a walk in the dark". In this work, we remove the need for expert-curated seed words by first mining (noisy) candidate seed words associated with the category names. We then train interim models with individual candidate seed words. Lastly, we estimate the interim models' error rate in an unsupervised manner. The seed words that yield the lowest estimated error rates are added to the final seed word set. A comprehensive evaluation of six binary classification tasks on four popular datasets demonstrates that the proposed method outperforms a baseline using only category name seed words and obtained comparable performance as a counterpart using expert-annotated seed words.


翻译:微弱监督的文本分类旨在从几个用户提供的种子字中诱导文本分类员。 绝大多数先前的工作都假定高质量的种子字。 但是, 专家加注的种子字有时是非三元性的。 此外, 在微弱监督的学习环境中, 我们没有任何标签文件来衡量种子字的功效, 使种子字选择过程“ 在黑暗中行走 ” 。 在这项工作中, 我们不需要专家加译的种子字, 与类别名称相关的先行( noisy) 候选种子字。 然后我们用个别候选种子字来训练临时模型。 最后, 我们以不受监督的方式估计临时模型的错误率。 产生最低估计误差率的种子字被添加到最后种子字组中。 对四个流行数据集的六个二元分类任务进行全面评估, 结果表明, 拟议的方法仅使用分类种子字就超越了基线, 并且作为使用专家加注的种子字的对应方, 取得了可比的成绩。

0
下载
关闭预览

相关内容

【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
159+阅读 · 2020年3月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
54+阅读 · 2019年10月17日
机器学习入门的经验与建议
专知会员服务
89+阅读 · 2019年10月10日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
已删除
将门创投
4+阅读 · 2018年6月4日
Arxiv
0+阅读 · 2021年6月9日
Arxiv
1+阅读 · 2021年6月8日
Arxiv
3+阅读 · 2018年8月27日
Phrase-Based & Neural Unsupervised Machine Translation
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
已删除
将门创投
4+阅读 · 2018年6月4日
Top
微信扫码咨询专知VIP会员