In this paper, we study the performance of variants of well-known Convolutional Neural Network (CNN) architectures on different audio tasks. We show that tuning the Receptive Field (RF) of CNNs is crucial to their generalization. An insufficient RF limits the CNN's ability to fit the training data. In contrast, CNNs with an excessive RF tend to over-fit the training data and fail to generalize to unseen testing data. As state-of-the-art CNN architectures-in computer vision and other domains-tend to go deeper in terms of number of layers, their RF size increases and therefore they degrade in performance in several audio classification and tagging tasks. We study well-known CNN architectures and how their building blocks affect their receptive field. We propose several systematic approaches to control the RF of CNNs and systematically test the resulting architectures on different audio classification and tagging tasks and datasets. The experiments show that regularizing the RF of CNNs using our proposed approaches can drastically improve the generalization of models, out-performing complex architectures and pre-trained models on larger datasets. The proposed CNNs achieve state-of-the-art results in multiple tasks, from acoustic scene classification to emotion and theme detection in music to instrument recognition, as demonstrated by top ranks in several pertinent challenges (DCASE, MediaEval).


翻译:在本文中,我们研究了众所周知的革命神经网络(CNN)结构在不同音频任务方面的变异性;我们表明,调整有线电视新闻网的感应场(RF)对于一般化至关重要;没有适当的RF限制了有线电视新闻网适应培训数据的能力;相比之下,有过度RF的有线电视新闻网对培训数据往往过于适合培训数据,而且没有普及到看不见的测试数据;作为最先进的有线电视新闻网架构(CNN)在计算机视野和其他域图中更深入了解层数,其RF规模增加,因此在一些音频分类和标记任务中的性能下降;我们研究有名的CNN架构及其构件如何影响其接受性能;我们提出若干系统的方法来控制有线电视新闻网的RF,并系统地测试由此产生的不同音频分类和标记任务和数据集的结构;实验表明,利用我们提议的方法使CNN的RF正规化能够大大改进模型的普及、过时的复杂架构和预先训练模型,从而降低若干音频分类和标志性的工作;我们研究了有声频-感官-感官-感官-感官-感官-感官/感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-感官-

0
下载
关闭预览

相关内容

剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
47+阅读 · 2021年1月20日
最新《Transformers模型》教程,64页ppt
专知会员服务
278+阅读 · 2020年11月26日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
37+阅读 · 2020年2月21日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
人工智能 | CCF推荐期刊专刊约稿信息6条
Call4Papers
5+阅读 · 2019年2月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Arxiv
11+阅读 · 2018年10月17日
Arxiv
3+阅读 · 2018年8月12日
Arxiv
5+阅读 · 2017年9月8日
VIP会员
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
人工智能 | CCF推荐期刊专刊约稿信息6条
Call4Papers
5+阅读 · 2019年2月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Top
微信扫码咨询专知VIP会员