Sound Event Localization and Detection (SELD) is a problem related to the field of machine listening whose objective is to recognize individual sound events, detect their temporal activity, and estimate their spatial location. Thanks to the emergence of more hard-labeled audio datasets, deep learning techniques have become state-of-the-art solutions. The most common ones are those that implement a convolutional recurrent network (CRNN) having previously transformed the audio signal into multichannel 2D representation. The squeeze-excitation technique can be considered as a convolution enhancement that aims to learn spatial and channel feature maps independently rather than together as standard convolutions do. This is usually achieved by combining some global clustering operators, linear operators and a final calibration between the block input and its learned relationships. This work aims to improve the accuracy results of the baseline CRNN presented in DCASE 2020 Task 3 by adding residual squeeze-excitation (SE) blocks in the convolutional part of the CRNN. The followed procedure involves a grid search of the ratio parameter (used in the linear relationships) of the residual SE block, whereas the hyperparameters of the network remain the same as in the baseline. Experiments show that by simply introducing the residual SE blocks, the results obtained are able to improve the baseline considerably.


翻译:声控事件本地化和探测(SELD)是一个与机器监听领域有关的问题,机器监听的目的是识别单个声音事件,探测其时间活动,并估计其空间位置。由于出现了更硬标签的音频数据集,深层学习技术已成为最先进的解决方案。最常见的方法是实施循环循环网络(CRCNNN),先前将音频信号转换为多通道 2D 代表的网络(CRNNN) 。挤压刺激技术可被视为一种渐进式增强技术,目的是独立学习空间和频道特征地图,而不是同时学习标准组合。这通常是通过将某些全球集群操作员、线性操作员和最终校准区块输入及其学习关系加以实现的。这项工作的目的是通过在CRNNE 2020任务3中添加剩余挤压源(SE)块来提高基准的准确性结果。以下程序涉及对SE区残余线性关系中所使用的比率参数进行网格搜索,而网络的超分数通常通过合并一些全球集操作员、线性操作员和对块输入基线的结果进行大幅改进。实验显示SEE区的基线。

0
下载
关闭预览

相关内容

专知会员服务
59+阅读 · 2020年3月19日
专知会员服务
109+阅读 · 2020年3月12日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
开源书:PyTorch深度学习起步
专知会员服务
49+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
3+阅读 · 2018年6月14日
Arxiv
6+阅读 · 2018年1月14日
VIP会员
Top
微信扫码咨询专知VIP会员