Acoustic-to-articulatory inversion (AAI) aims to estimate the parameters of articulators from speech audio. There are two common challenges in AAI, which are the limited data and the unsatisfactory performance in speaker independent scenario. Most current works focus on extracting features directly from speech and ignoring the importance of phoneme information which may limit the performance of AAI. To this end, we propose a novel network called SPN that uses two different streams to carry out the AAI task. Firstly, to improve the performance of speaker-independent experiment, we propose a new phoneme stream network to estimate the articulatory parameters as the phoneme features. To the best of our knowledge, this is the first work that extracts the speaker-independent features from phonemes to improve the performance of AAI. Secondly, in order to better represent the speech information, we train a speech stream network to combine the local features and the global features. Compared with state-of-the-art (SOTA), the proposed method reduces 0.18mm on RMSE and increases 6.0% on Pearson correlation coefficient in the speaker-independent experiment. The code has been released at https://github.com/liujinyu123/AAINetwork-SPN.


翻译:声频到电动转换(AAI)旨在估计语音音频传动器参数(AAI)的参数。在AAI中,有两个共同的挑战,即数据有限和独立演讲人情景的性能不尽如人意。目前大多数工作的重点是直接从语音中提取特征,忽视电话信息的重要性,从而可能限制AAI的性能。为此,我们提议建立一个名为SPN的新网络,使用两种不同的流来执行AAI的任务。首先,为了改进独立演讲人实验的性能,我们提议一个新的电话流网络来估计作为电话功能的动脉参数。据我们所知,这是从电话中提取独立演讲人特征以改进AAI的首次工作。第二,为了更好地代表语音信息,我们培训了一个语音流网络,将当地特征和全球特征结合起来。与State-the-art(SOITA)相比,拟议方法降低了RME的0.18毫米,并在ARCE/MAVII/Scomtru实验中将PI/MASUDI/AMSI/MASO)增加6.0%的相关系数。该代码已经发布。</s>

0
下载
关闭预览

相关内容

NeurlPS 2022 | 自然语言处理相关论文分类整理
专知会员服务
48+阅读 · 2022年10月2日
不可错过!《机器学习100讲》课程,UBC Mark Schmidt讲授
专知会员服务
71+阅读 · 2022年6月28日
专知会员服务
59+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Neural Architecture Search without Training
Arxiv
10+阅读 · 2021年6月11日
VIP会员
相关基金
Top
微信扫码咨询专知VIP会员