For immersive applications, the generation of binaural sound that matches the visual counterpart is crucial to bring meaningful experiences to people in a virtual environment. Recent works have shown the possibility to use neural networks for synthesizing binaural audio from mono audio using 2D visual information as guidance. Extending this approach by guiding the audio using 3D visual information and operating in the waveform domain may allow for a more accurate auralization of a virtual audio scene. In this paper, we present Points2Sound, a multi-modal deep learning model which generates a binaural version from mono audio using 3D point cloud scenes. Specifically, Points2Sound consists of a vision network with 3D sparse convolutions which extracts visual features from the point cloud scene to condition an audio network, which operates in the waveform domain, to synthesize the binaural version. Experimental results indicate that 3D visual information can successfully guide multi-modal deep learning models for the task of binaural synthesis. In addition, we investigate different loss functions and 3D point cloud attributes, showing that directly predicting the full binaural signal and using rgb-depth features increases the performance of our proposed model.


翻译:对于隐性应用,生成与视觉对等相匹配的双声传声对于在虚拟环境中为人们带来有意义的经验至关重要。最近的工作表明,使用 2D 视觉信息作为指导,利用单声带将单声带的双声带合成神经网络是可能的。通过使用 3D 视觉信息指导音频并在波形域内操作来扩展这一方法,可以更准确地将虚拟音频场进行分化。在本文中,我们展示了Ppoint2Sound,一个多式深度学习模型,利用 3D 点云场景从单声带生成一个双声带版本。具体地说,Ppoint2Sound由3D 分散的相光谱网络组成,从点云场提取视觉特征,以设置在波形域运行的音频网络,合成双声带版本。实验结果显示, 3D 视觉信息能够成功指导多式深度学习模型,完成双声合成任务。此外,我们调查了不同的损失功能和3D点云谱属性,显示直接预测整个阵形信号,并使用Rgb 深度功能提高拟议性能。

0
下载
关闭预览

相关内容

Mono 是一个由 Novell 公司(由Ximian发起,并由Miguel de lcaza领导的,一个致力于开创.NET在Linux上使用的开源工程。
Python计算导论,560页pdf,Introduction to Computing Using Python
专知会员服务
70+阅读 · 2020年5月5日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
跟踪SLAM前沿动态系列之ICCV2019
泡泡机器人SLAM
7+阅读 · 2019年11月23日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
「Awesome」3D机器学习资源汇总
专知
7+阅读 · 2019年3月14日
【泡泡一分钟】学习多视图相似度(ICCV-2017)
泡泡机器人SLAM
9+阅读 · 2018年10月7日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
From Motion to Muscle
Arxiv
0+阅读 · 2022年1月27日
Arxiv
6+阅读 · 2021年11月12日
Arxiv
12+阅读 · 2021年6月21日
Deep Learning for 3D Point Clouds: A Survey
Arxiv
3+阅读 · 2019年12月27日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
VIP会员
相关资讯
跟踪SLAM前沿动态系列之ICCV2019
泡泡机器人SLAM
7+阅读 · 2019年11月23日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
「Awesome」3D机器学习资源汇总
专知
7+阅读 · 2019年3月14日
【泡泡一分钟】学习多视图相似度(ICCV-2017)
泡泡机器人SLAM
9+阅读 · 2018年10月7日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Top
微信扫码咨询专知VIP会员