Most advanced supervised Machine Learning (ML) models rely on vast amounts of point-by-point labelled training examples. Hand-labelling vast amounts of data may be tedious, expensive, and error-prone. Recently, some studies have explored the use of diverse sources of weak supervision to produce competitive end model classifiers. In this paper, we survey recent work on weak supervision, and in particular, we investigate the Data Programming (DP) framework. Taking a set of potentially noisy heuristics as input, DP assigns denoised probabilistic labels to each data point in a dataset using a probabilistic graphical model of heuristics. We analyze the math fundamentals behind DP and demonstrate the power of it by applying it on two real-world text classification tasks. Furthermore, we compare DP with pointillistic active and semi-supervised learning techniques traditionally applied in data-sparse settings.


翻译:最先进的监督机器学习(ML)模型依靠大量的按点贴标签的培训实例。大量手工标签的数据可能是枯燥、昂贵和易出错的。最近,一些研究探索了使用各种薄弱的监督来源来产生具有竞争力的最终模式分类者。我们在本文件中调查了最近关于薄弱监督的工作,特别是调查了数据规划框架。用一套可能吵闹的杂乱的杂乱理论作为输入,DP使用一种概率性图象模型对数据集中的每个数据点指定了非无名的概率标签。我们分析了DP的数学基础,并通过将其应用于两种真实世界文本分类任务来展示其力量。此外,我们把DP与传统上在数据采集环境中使用的点性活性和半超强性学习技术进行比较。

0
下载
关闭预览

相关内容

迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
39+阅读 · 2020年7月27日
商业数据分析,39页ppt
专知会员服务
158+阅读 · 2020年6月2日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
【新书】Python编程基础,669页pdf
专知会员服务
187+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
已删除
将门创投
9+阅读 · 2017年10月17日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Learning From Positive and Unlabeled Data: A Survey
Arxiv
4+阅读 · 2018年11月12日
Arxiv
6+阅读 · 2018年3月29日
Arxiv
3+阅读 · 2016年2月24日
VIP会员
相关VIP内容
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
39+阅读 · 2020年7月27日
商业数据分析,39页ppt
专知会员服务
158+阅读 · 2020年6月2日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
【新书】Python编程基础,669页pdf
专知会员服务
187+阅读 · 2019年10月10日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
已删除
将门创投
9+阅读 · 2017年10月17日
Top
微信扫码咨询专知VIP会员