科研人员建立基于小波谱图和深度卷积网络的音频场景识别新框架

2018 年 12 月 14 日 中科院之声

近年来,网络上音频的种类和数量呈现爆发式增长。相比语音和音乐,音频中的环境信息更加多样,受到了国内外研究者的广泛关注。


音频场景分类的目的是识别出录制音频的特定场景,从而使穿戴式设备、智能机器人感知周围的环境信息并做出相应反射。传统的音频分类任务大都使用短时特征,如梅尔频率倒谱系数等。然而,环境信息一般隐藏在不同时长的背景声中,因此提取多分辨率多尺度的特征是音频场景分类的关键。


近期,中国科学院声学研究所语言声学与内容理解重点实验室博士生陈航艇及其导师张鹏远等人提出了一种基于小波变换和深度卷积神经网络的场景识别新方法。相关研究成果已被Proceedings of the Annual Conference of the International Speech Communication Association(2018)收录。


研究人员提出的音频场景分类系统包括前端和后端两个模块。前端采用不同时长和频率分布的小波滤波器来提取小波谱图,此滤波器组可以同时捕捉到转瞬即逝的音频事件和长时的韵律节奏。后端的深度卷积神经网络结合小卷积核和池化操作,将“高维语义”从原始特征中抽象出来。


在相关场景数据集上的实验结果表明,使用小波谱图和深度卷积神经网络的音频场景识别表现明显优于传统的短时特征。相比短时特征,长时的小波谱图的时间分辨率较低,一定程度上降低了存储和计算的要求。


该研究为音频场景的分析提供了新的前后端架构,为环境声音的研究提供了新思路。


基于小波变换和深度卷积网络的场景识别系统(图/陈航艇)


来源:中国科学院声学研究所


温馨提示:近期,微信公众号信息流改版。每个用户可以设置 常读订阅号,这些订阅号将以大卡片的形式展示。因此,如果不想错过“中科院之声”的文章,你一定要进行以下操作:进入“中科院之声”公众号 → 点击右上角的 ··· 菜单 → 选择「设为星标」




登录查看更多
3

相关内容

异质信息网络分析与应用综述,软件学报-北京邮电大学
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
25+阅读 · 2020年5月25日
基于深度学习的多标签生成研究进展
专知会员服务
140+阅读 · 2020年4月25日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
12+阅读 · 2020年3月30日
深度神经网络实时物联网图像处理,241页pdf
专知会员服务
76+阅读 · 2020年3月15日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
图卷积在基于骨架的动作识别中的应用
极市平台
24+阅读 · 2019年6月4日
卷积神经网络四种卷积类型
炼数成金订阅号
18+阅读 · 2019年4月16日
卷积自适应降噪自动编码器
FCS
8+阅读 · 2019年1月3日
MSRA视觉组可变形卷积网络升级!更高性能,更强建模能力
未来产业促进会
6+阅读 · 2018年11月29日
【学界】基于条件深度卷积生成对抗网络的图像识别方法
GAN生成式对抗网络
15+阅读 · 2018年7月26日
【深度解读】陶建华:深度神经网络与语音
中国科学院自动化研究所
6+阅读 · 2018年7月9日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
带你训练一个简单的音频识别网络(附代码)
数据派THU
4+阅读 · 2017年10月9日
端对端的深度卷积神经网络在语音识别中的应用
深度学习每日摘要
6+阅读 · 2017年7月18日
Arxiv
6+阅读 · 2019年7月11日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
CoCoNet: A Collaborative Convolutional Network
Arxiv
6+阅读 · 2019年1月28日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关资讯
图卷积在基于骨架的动作识别中的应用
极市平台
24+阅读 · 2019年6月4日
卷积神经网络四种卷积类型
炼数成金订阅号
18+阅读 · 2019年4月16日
卷积自适应降噪自动编码器
FCS
8+阅读 · 2019年1月3日
MSRA视觉组可变形卷积网络升级!更高性能,更强建模能力
未来产业促进会
6+阅读 · 2018年11月29日
【学界】基于条件深度卷积生成对抗网络的图像识别方法
GAN生成式对抗网络
15+阅读 · 2018年7月26日
【深度解读】陶建华:深度神经网络与语音
中国科学院自动化研究所
6+阅读 · 2018年7月9日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
带你训练一个简单的音频识别网络(附代码)
数据派THU
4+阅读 · 2017年10月9日
端对端的深度卷积神经网络在语音识别中的应用
深度学习每日摘要
6+阅读 · 2017年7月18日
Top
微信扫码咨询专知VIP会员