A mixed sample data augmentation strategy is proposed to enhance the performance of models on audio scene classification, sound event classification, and speech enhancement tasks. While there have been several augmentation methods shown to be effective in improving image classification performance, their efficacy toward time-frequency domain features of audio is not assured. We propose a novel audio data augmentation approach named "Specmix" specifically designed for dealing with time-frequency domain features. The augmentation method consists of mixing two different data samples by applying time-frequency masks effective in preserving the spectral correlation of each audio sample. Our experiments on acoustic scene classification, sound event classification, and speech enhancement tasks show that the proposed Specmix improves the performance of various neural network architectures by a maximum of 2.7%.


翻译:为加强音频场景分类、音频事件分类和语音增强任务等模型的性能,提出了混合抽样数据增强战略,以提升音频场分类、音频事件分类和语音增强任务等模型的性能。虽然有几种增强方法证明在提高图像分类性能方面行之有效,但它们对音频时间-频率域特性的效力得不到保证。我们提出了一种名为“频谱”的新型音频数据增强方法,专门为处理时频域特性而设计。增强方法包括将两个不同的数据样本混合在一起,采用有效时间-频率掩罩保护每个音频样的频谱相关性。我们在声频场分类、音频事件分类和语音增强任务方面的实验显示,拟议的Specmix将各种神经网络结构的性能提高至2.7%。

0
下载
关闭预览

相关内容

数据增强在机器学习领域多指采用一些方法(比如数据蒸馏,正负样本均衡等)来提高模型数据集的质量,增强数据。
专知会员服务
50+阅读 · 2021年5月19日
一份简单《图神经网络》教程,28页ppt
专知会员服务
120+阅读 · 2020年8月2日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
128+阅读 · 2020年5月14日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
revelation of MONet
CreateAMind
5+阅读 · 2019年6月8日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
PTGAN for Person Re-Identification
统计学习与视觉计算组
4+阅读 · 2018年9月10日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Learning in the Frequency Domain
Arxiv
11+阅读 · 2020年3月12日
Arxiv
13+阅读 · 2018年4月6日
VIP会员
相关资讯
revelation of MONet
CreateAMind
5+阅读 · 2019年6月8日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
PTGAN for Person Re-Identification
统计学习与视觉计算组
4+阅读 · 2018年9月10日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员