We present a new framework SoundDet, which is an end-to-end trainable and light-weight framework, for polyphonic moving sound event detection and localization. Prior methods typically approach this problem by preprocessing raw waveform into time-frequency representations, which is more amenable to process with well-established image processing pipelines. Prior methods also detect in segment-wise manner, leading to incomplete and partial detections. SoundDet takes a novel approach and directly consumes the raw, multichannel waveform and treats the spatio-temporal sound event as a complete ``sound-object" to be detected. Specifically, SoundDet consists of a backbone neural network and two parallel heads for temporal detection and spatial localization, respectively. Given the large sampling rate of raw waveform, the backbone network first learns a set of phase-sensitive and frequency-selective bank of filters to explicitly retain direction-of-arrival information, whilst being highly computationally and parametrically efficient than standard 1D/2D convolution. A dense sound event proposal map is then constructed to handle the challenges of predicting events with large varying temporal duration. Accompanying the dense proposal map are a temporal overlapness map and a motion smoothness map that measure a proposal's confidence to be an event from temporal detection accuracy and movement consistency perspective. Involving the two maps guarantees SoundDet to be trained in a spatio-temporally unified manner. Experimental results on the public DCASE dataset show the advantage of SoundDet on both segment-based and our newly proposed event-based evaluation system.


翻译:我们提出了一个新框架“SoundDet ”, 它是一个端到端的、可训练的和轻量级的框架, 用于检测和定位多声波传动事件。 先前的方法通常通过先将原始波形处理成时间- 频率表示器来处理这一问题, 更便于用固定的图像处理管道进行处理。 先前的方法也以片段方式探测, 导致检测不完整和部分检测。 声音Det 采取了新颖的方法, 直接消耗原始的、 多通道波形, 并直接消耗原始的、 多通道波形, 将弹道- 时空声音事件作为完整的“ 声音- 目标” 来处理 。 具体地说, SoundDet 包括一个主干线神经网络和两个平行头, 分别用于时间- 检测和空间定位。 鉴于原始波形的取样率较高, 骨干网络首先学会一组对阶段敏感和频率有选择性的过滤库, 以明确保留抵达方向信息, 同时以高度的计算和对准效率高于标准 1D/2D convolution 。 然后构建一个密集的事件建议地图上, 将一个预测一个具有深度的精确度测量度测量度的模型, 。

0
下载
关闭预览

相关内容

【经典书】模式识别导论,561页pdf
专知会员服务
78+阅读 · 2021年6月30日
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
86+阅读 · 2020年12月2日
【ICML2020】小样本目标检测
专知会员服务
90+阅读 · 2020年6月2日
专知会员服务
59+阅读 · 2020年3月19日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
已删除
将门创投
8+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
Arxiv
1+阅读 · 2021年8月12日
Arxiv
1+阅读 · 2021年8月12日
EfficientDet: Scalable and Efficient Object Detection
Arxiv
6+阅读 · 2019年11月20日
Arxiv
5+阅读 · 2018年5月16日
Arxiv
8+阅读 · 2018年1月30日
VIP会员
相关资讯
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
已删除
将门创投
8+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
Top
微信扫码咨询专知VIP会员