基于结构化统计声学模型的非平行语料非联合训练说话人语音转换研究 - 专知基金

会员服务 ·

0

语音转换 · 非平行语料 · 全局声学结构 · 约束期望最大化 ·

2012 年 12 月 31 日

基于结构化统计声学模型的非平行语料非联合训练说话人语音转换研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 基于结构化统计声学模型的非平行语料非联合训练说话人语音转换研究

项目编号： No.61271360

项目类型： 面上项目

立项/批准年度： 2013

项目学科： 无线电电子学、电信技术

项目作者： 俞一彪

作者单位： 苏州大学

项目金额： 65万元

中文摘要： 说话人语音转换在保持语义不变的前提下将源说话人的语音转换为目标说话人的语音,具有广泛的应用价值，也是当前语音处理研究领域的主要热点之一。目前，语音转换系统一般采用平行语料训练源-目标说话人联合语音模型，并由此推导语音转换公式。但是，实际应用中不仅难以得到平行语料，而且联合语音模型的训练需要语音的精确对准和大量的计算、系统扩展也相当不便。本课题旨在研究并提出一种有效的高性能非平行语料非联合训练说话人语音转换方法。主要研究内容包括:(1)说话人语音结构化统计声学模型的分析与研究；(2)说话人语音结构化统计声学模型之间的匹配与特征分布对准方法研究；（3）短时谱转换公式推导；（4）说话人语音多韵律模型与转换控制研究；（5）语音转换性能的主观与客观评价。

中文关键词： 语音转换；非平行语料；结构化高斯混合模型；全局声学结构；约束期望最大化

英文摘要： Voice conversion means convert speech of source speaker to that of target speaker. As one of the hotest research topics in speech processing, it is very significant for various applications. The most of current voice conversion system need parallel speech corpus of both source and target speaker for joint training of union speech model by which the transform function of spectrum is derived. But parallel corpus is quite difficult to get in practice, the joint traing of union speech model consumes much cumputational costs and make system inflexible for new users. This project focuses on research of innovative voice conversion technology without need of parallel speech corpus and joint training. The main contents are: (1) Structured statistical acoustic model of speaker vocie;(2) Matching and alignment of structured statistical acoustic model;(3) Transform function of speech spectrum;(4) Multi-prosody model and transform, control;(5) Objective and sunjective evaluation of trasform performance.

英文关键词： voice conversion；non-parallel；structured Gaussian mixture model；acoustic universal structure；constraint expectation maximaization

成为VIP会员查看完整内容

0

相关内容

语音转换

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

32+阅读 · 2022年2月7日

【上海交通大学陈露博士论文】认知型口语交互系统中的对话管理技术

【上海交通大学陈露博士论文】认知型口语交互系统中的对话管理技术

专知会员服务

37+阅读 · 2021年11月23日

EMNLP 2021 | RocketQAv2：稠密段落检索和段落精排的联合训练方法

EMNLP 2021 | RocketQAv2：稠密段落检索和段落精排的联合训练方法

专知会员服务

11+阅读 · 2021年10月24日

【哥本哈根博士论文】因果性与泛化:可识别性与学习方法

专知会员服务

57+阅读 · 2021年10月18日

基于语言模型的预训练技术研究综述

专知会员服务

55+阅读 · 2021年10月12日

【字节跳动-李航】一种按序列进行对话状态跟踪的方法

【字节跳动-李航】一种按序列进行对话状态跟踪的方法

专知会员服务

28+阅读 · 2020年11月25日

最新《深度学习序列标记》综述论文，16页pdf134篇参考文献

最新《深度学习序列标记》综述论文，16页pdf134篇参考文献

专知会员服务

39+阅读 · 2020年11月18日

基于迁移学习的细粒度实体分类方法的研究

专知会员服务

31+阅读 · 2020年9月2日

【ACL2020】多模态信息抽取，365页ppt

【ACL2020】多模态信息抽取，365页ppt

专知会员服务

140+阅读 · 2020年7月6日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

72+阅读 · 2020年5月30日

AI说话也有小情绪！Meta AI连发三篇Textless NLP论文：语音生成的终极答案？

AI说话也有小情绪！Meta AI连发三篇Textless NLP论文：语音生成的终极答案？

新智元

0+阅读 · 2022年4月7日

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

开放知识图谱

0+阅读 · 2022年2月26日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知

2+阅读 · 2022年2月7日

最新综述：跨语言语音合成方法的发展趋势与方向

最新综述：跨语言语音合成方法的发展趋势与方向

PaperWeekly

1+阅读 · 2021年10月8日

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

机器之心

26+阅读 · 2019年9月15日

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

人工智能前沿讲习班

14+阅读 · 2019年6月16日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

15+阅读 · 2017年8月2日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于海量语料自然标注信息的汉语自然语块分析

国家自然科学基金

0+阅读 · 2013年12月31日

面向非平行文本的说话人个性特征转换的关键技术及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

融合语音产生机理与统计声学建模的层次化语音合成方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

用于非对称语料的语音转换函数训练算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于DBN协同建模的中文及跨语种语音结构事件检测研究

国家自然科学基金

0+阅读 · 2011年12月31日

声纹识别中合成语音的鲁棒性研究

国家自然科学基金

1+阅读 · 2009年12月31日

结合发音动作参数的统计建模语音合成方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于Lp优化的语音压缩感知理论和编码技术的研究

国家自然科学基金

0+阅读 · 2009年12月31日

Cross-Lingual Phrase Retrieval

Arxiv

0+阅读 · 2022年4月19日

Mono vs Multilingual BERT for Hate Speech Detection and Text Classification: A Case Study in Marathi

Arxiv

0+阅读 · 2022年4月19日

Multilingual Molecular Representation Learning via Contrastive Pre-training

Multilingual Molecular Representation Learning via Contrastive Pre-training

Arxiv

0+阅读 · 2022年4月18日

Factual Error Correction for Abstractive Summaries Using Entity Retrieval

Arxiv

0+阅读 · 2022年4月18日

A Study on Prompt-based Few-Shot Learning Methods for Belief State Tracking in Task-oriented Dialog Systems

Arxiv

0+阅读 · 2022年4月18日

A Psycho-linguistic Analysis of BitChute

Arxiv

0+阅读 · 2022年4月17日

Unconditional Image-Text Pair Generation with Multimodal Cross Quantizer

Arxiv

0+阅读 · 2022年4月15日

Polling Latent Opinions: A Method for Computational Sociolinguistics Using Transformer Language Models

Polling Latent Opinions: A Method for Computational Sociolinguistics Using Transformer Language Models

Arxiv

0+阅读 · 2022年4月15日

SDD-FIQA: Unsupervised Face Image Quality Assessment with Similarity Distribution Distance

Arxiv

13+阅读 · 2021年3月10日

Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems

Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems

Arxiv

11+阅读 · 2019年11月4日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

非平行语料

全局声学结构

约束期望最大化

热门VIP内容

相关VIP内容

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

32+阅读 · 2022年2月7日

【上海交通大学陈露博士论文】认知型口语交互系统中的对话管理技术

【上海交通大学陈露博士论文】认知型口语交互系统中的对话管理技术

专知会员服务

37+阅读 · 2021年11月23日

EMNLP 2021 | RocketQAv2：稠密段落检索和段落精排的联合训练方法

EMNLP 2021 | RocketQAv2：稠密段落检索和段落精排的联合训练方法

专知会员服务

11+阅读 · 2021年10月24日

【哥本哈根博士论文】因果性与泛化:可识别性与学习方法

专知会员服务

57+阅读 · 2021年10月18日

基于语言模型的预训练技术研究综述

专知会员服务

55+阅读 · 2021年10月12日

【字节跳动-李航】一种按序列进行对话状态跟踪的方法

【字节跳动-李航】一种按序列进行对话状态跟踪的方法

专知会员服务

28+阅读 · 2020年11月25日

最新《深度学习序列标记》综述论文，16页pdf134篇参考文献

最新《深度学习序列标记》综述论文，16页pdf134篇参考文献

专知会员服务

39+阅读 · 2020年11月18日

基于迁移学习的细粒度实体分类方法的研究

专知会员服务

31+阅读 · 2020年9月2日

【ACL2020】多模态信息抽取，365页ppt

【ACL2020】多模态信息抽取，365页ppt

专知会员服务

140+阅读 · 2020年7月6日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

72+阅读 · 2020年5月30日

相关资讯

AI说话也有小情绪！Meta AI连发三篇Textless NLP论文：语音生成的终极答案？

AI说话也有小情绪！Meta AI连发三篇Textless NLP论文：语音生成的终极答案？

新智元

0+阅读 · 2022年4月7日

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

开放知识图谱

0+阅读 · 2022年2月26日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知

2+阅读 · 2022年2月7日

最新综述：跨语言语音合成方法的发展趋势与方向

最新综述：跨语言语音合成方法的发展趋势与方向

PaperWeekly

1+阅读 · 2021年10月8日

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

机器之心

26+阅读 · 2019年9月15日

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

人工智能前沿讲习班

14+阅读 · 2019年6月16日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

15+阅读 · 2017年8月2日

相关基金

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于海量语料自然标注信息的汉语自然语块分析

国家自然科学基金

0+阅读 · 2013年12月31日

面向非平行文本的说话人个性特征转换的关键技术及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

融合语音产生机理与统计声学建模的层次化语音合成方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

用于非对称语料的语音转换函数训练算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于DBN协同建模的中文及跨语种语音结构事件检测研究

国家自然科学基金

0+阅读 · 2011年12月31日

声纹识别中合成语音的鲁棒性研究

国家自然科学基金

1+阅读 · 2009年12月31日

结合发音动作参数的统计建模语音合成方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于Lp优化的语音压缩感知理论和编码技术的研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Cross-Lingual Phrase Retrieval

Arxiv

0+阅读 · 2022年4月19日

Mono vs Multilingual BERT for Hate Speech Detection and Text Classification: A Case Study in Marathi

Arxiv

0+阅读 · 2022年4月19日

Multilingual Molecular Representation Learning via Contrastive Pre-training

Multilingual Molecular Representation Learning via Contrastive Pre-training

Arxiv

0+阅读 · 2022年4月18日

Factual Error Correction for Abstractive Summaries Using Entity Retrieval

Arxiv

0+阅读 · 2022年4月18日

A Study on Prompt-based Few-Shot Learning Methods for Belief State Tracking in Task-oriented Dialog Systems

Arxiv

0+阅读 · 2022年4月18日

A Psycho-linguistic Analysis of BitChute

Arxiv

0+阅读 · 2022年4月17日

Unconditional Image-Text Pair Generation with Multimodal Cross Quantizer

Arxiv

0+阅读 · 2022年4月15日

Polling Latent Opinions: A Method for Computational Sociolinguistics Using Transformer Language Models

Polling Latent Opinions: A Method for Computational Sociolinguistics Using Transformer Language Models

Arxiv

0+阅读 · 2022年4月15日

SDD-FIQA: Unsupervised Face Image Quality Assessment with Similarity Distribution Distance

Arxiv

13+阅读 · 2021年3月10日

Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems

Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems

Arxiv

11+阅读 · 2019年11月4日

微信扫码咨询专知VIP会员