序列数据的数据增强方法综述

为了追求精度，深度学习模型框架的结构越来越复杂，网络越来越深。参数量的增加意味着训练模型需要更多的数据。然而人工标注数据的成本是高昂的，且受客观原因所限，实际应用时可能难以获得特定领域的数据，数据不足问题非常常见。数据增强通过人为地生成新的数据增加数据量来缓解这一问题。数据增强方法在计算机视觉领域大放异彩，让人们开始关注类似方法能否应用在序列数据上。除了翻转、裁剪等在时间域进行增强的方法外，也描述了在频率域实现数据增强的方法；除了人们基于经验或知识而设计的方法以外，对一系列基于GAN的通过机器学习模型自动生成数据的方法也进行了详细的论述。介绍了应用在自然语言文本、音频信号和时间序列等多种序列数据上的数据增强方法，亦有涉及它们在医疗诊断、情绪判断等问题上的表现。尽管数据类型不同，但总结了应用在这些类型上的数据增强方法背后的相似的设计思路。以这一思路为线索，梳理应用在各类序列数据类型上的多种数据增强方法，并进行了一定的讨论和展望。

http://fcst.ceaj.org/CN/abstract/abstract2790.shtml

成为VIP会员查看完整内容