This paper proposes a Region-based Convolutional Recurrent Neural Network (R-CRNN) for audio event detection (AED). The proposed network is inspired by Faster-RCNN, a well known region-based convolutional network framework for visual object detection. Different from the original Faster-RCNN, a recurrent layer is added on top of the convolutional network to capture the long-term temporal context from the extracted high level features. While most of the previous works on AED generate predictions at frame level first, and then use post-processing to predict the onset/offset timestamps of events from a probability sequence; the proposed method generates predictions at event level directly and can be trained end-to-end with a multitask loss, which optimizes the classification and localization of audio events simultaneously. The proposed method is tested on DCASE 2017 Challenge dataset. To the best of our knowledge, R-CRNN is the best performing single-model method among all methods without using ensembles both on development and evaluation sets. Compared to the other region-based network for AED (R-FCN) with an event-based error rate (ER) of 0.18 on the development set, our method reduced the ER to half.


翻译:本文提出了用于音频事件探测的区域革命经常性神经网络(R-CRNN)建议。拟议网络的灵感来自Appear-RCNNN,这是一个以区域为主的视觉物体探测的众所周知的区域革命网络框架。不同于最初的Apper-RCNNN,在革命网络的顶部添加了一个经常性的层,以从提取的高水平特征中获取长期时间背景。虽然以前关于AED的大部分工作首先在框架一级产生预测,然后利用后处理从概率序列中预测事件的开始/取消时间标记;拟议方法直接在事件一级产生预测,并可在多任务损失的情况下经过培训,从而同时优化音频事件的分类和本地化。在DCASE 2017挑战数据集上测试了拟议方法。据我们所知,R-CRNN是所有方法中最佳的单一模式方法,不使用开发和评价组合。与基于事件序列的其他区域网络相比,用以事件为基础的0.18误率来降低我们以事件为基础的0.18误率。

2
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
专知会员服务
61+阅读 · 2020年3月19日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Arxiv
6+阅读 · 2019年4月4日
Arxiv
12+阅读 · 2019年1月24日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
VIP会员
Top
微信扫码咨询专知VIP会员