Data augmentation, the artificial creation of training data for machine learning by transformations, is a widely studied research field across machine learning disciplines. While it is useful for increasing the generalization capabilities of a model, it can also address many other challenges and problems, from overcoming a limited amount of training data over regularizing the objective to limiting the amount data used to protect privacy. Based on a precise description of the goals and applications of data augmentation (C1) and a taxonomy for existing works (C2), this survey is concerned with data augmentation methods for textual classification and aims to achieve a concise and comprehensive overview for researchers and practitioners (C3). Derived from the taxonomy, we divided more than 100 methods into 12 different groupings and provide state-of-the-art references expounding which methods are highly promising (C4). Finally, research perspectives that may constitute a building block for future work are given (C5).


翻译:数据增强,即人为地为转换后的机器学习创造培训数据,是一个跨机器学习学科的研究领域,是一个广泛研究的研究领域,虽然对于提高模型的普及能力有用,但也可以解决许多其他挑战和问题,从克服有限数量的培训数据,将目标标准化到限制保护隐私的数据数量,从克服有限数量的培训数据到限制保护隐私的数据数量,根据对数据增强(C1)的目标和应用以及现有工程分类(C2)的准确描述,本调查涉及文字分类的数据增强方法,目的是为研究人员和从业人员提供简明和全面的概览(C3)。 从分类学中,我们将100多种方法分为12个不同的组别,并提供最先进的参考资料,说明哪些方法非常有希望(C4)。 最后,提供了研究观点,这些观点可能构成今后工作的基础(C5)。

16
下载
关闭预览

相关内容

数据增强在机器学习领域多指采用一些方法(比如数据蒸馏,正负样本均衡等)来提高模型数据集的质量,增强数据。
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
商业数据分析,39页ppt
专知会员服务
157+阅读 · 2020年6月2日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
143+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】RNN最新研究进展综述
机器学习研究会
25+阅读 · 2018年1月6日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Arxiv
54+阅读 · 2021年5月3日
Arxiv
9+阅读 · 2021年3月25日
Arxiv
38+阅读 · 2020年12月2日
A Survey on Edge Intelligence
Arxiv
49+阅读 · 2020年3月26日
On Feature Normalization and Data Augmentation
Arxiv
14+阅读 · 2020年2月25日
A Comprehensive Survey on Transfer Learning
Arxiv
117+阅读 · 2019年11月7日
Arxiv
5+阅读 · 2019年4月25日
Arxiv
4+阅读 · 2017年4月12日
VIP会员
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】RNN最新研究进展综述
机器学习研究会
25+阅读 · 2018年1月6日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
相关论文
Arxiv
54+阅读 · 2021年5月3日
Arxiv
9+阅读 · 2021年3月25日
Arxiv
38+阅读 · 2020年12月2日
A Survey on Edge Intelligence
Arxiv
49+阅读 · 2020年3月26日
On Feature Normalization and Data Augmentation
Arxiv
14+阅读 · 2020年2月25日
A Comprehensive Survey on Transfer Learning
Arxiv
117+阅读 · 2019年11月7日
Arxiv
5+阅读 · 2019年4月25日
Arxiv
4+阅读 · 2017年4月12日
Top
微信扫码咨询专知VIP会员