微软文本-语音合成转换技术新里程碑!完美再现真人声调

2018 年 9 月 25 日 新智元

新智元 AI World 2018 世界人工智能峰会

全程回顾

新智元于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会,邀请机器学习教父、CMU教授 Tom Mitchell,迈克思·泰格马克,周志华,陶大程,陈怡然等AI领袖一起关注机器智能与人类命运。


爱奇艺

上午:https://www.iqiyi.com/v_19rr54cusk.html

下午:https://www.iqiyi.com/v_19rr54hels.html

新浪:http://video.sina.com.cn/l/p/1724373.html







  新智元报道  

来源:Azure

编辑:大明

【新智元导读】微软在Ignite会议上推出新的神经文本-语音合成(TTS)利器!这项新服务生成的语音在节奏、语调和顿挫感上都几乎和真人一样,具备人类语音一样的自然韵律和词汇清晰度。目前该服务已经发布预览版,开发者可申请尝鲜!


震撼!AI WORLD 2018世界人工智能峰会开场视频

 

微软在文本到语音合成方面达到了一个新的里程碑,利用深度神经网络,使计算机合成的声音几乎与真人的录音无法区分。合成的声音具备和人类语音一样的自然韵律和明确的词汇清晰度,用户在与AI系统进行交互时,可以显著降低听觉疲劳。


微软技术院士、语音和语言团队负责人黄学东(Xuedong Huang)表示:


语音是推动环境计算开发的新界面,因为语音识别已经改变了我们的日常生活,从数字化助理、电子邮件和文档内容的听写、再到记录演讲和会议内容。由于微软多年来在语音识别方面的研究,以及一直处于最前沿的神经网络技术的跨越式进步,这些方案在今天仍然可行。


随着微软Azure GPU加速的虚拟机规模的不断扩展,如ND v2使用的8路互联NVIDIA Tesla V100 GPU以及基于Skylake的处理器,我们有可能快速提高大规模语音识别模型的训练速度,为Cortana,Skype翻译,Windows和Office提供支持。期待这些服务的发布!“


黄学东

新文本-语音合成服务已经可预览,开发者可尝鲜


黄学东表示,微软的团队本周在佛罗里达州奥兰多举行的Microsoft Ignite会议上展示了这个神经网络驱动的文本到语音合成功能。该功能目前可通过Azure Cognitive Services语音服务进行预览。

 

该功能可以让聊天机器人和虚拟助理的交互更自然、更具吸引力,比如将电子书等数字化文本转换为有声读物,让车载导航系统的功能更加强大等。

 

这项文本-语音转换功能是微软在过去两年中取得的一系列突破之一,其他技术突破还包括在会话语音识别和机器翻译中达到与人类大体相当的水平。

 


神经文本到语音合成(TTS):声音和真人一样


微软此次发布的文本到语音合成技术,利用深度神经网络来克服传统的文本到语音转换系统的局限性,匹配口语中的语音顿挫和语调模式和韵律,并将语音单元合成为计算机语音。

 

传统的文本到语音系统将韵律分解为单独的语言分析和声学预测,这些步骤分别由独立模型控制。这可能导致合成后的语音结果过于低沉和嘈杂。微软的系统能够同时进行韵律预测和语音合成,合成的声音更加流畅自然。

 

利用微软Azure的计算能力,该服务可以提供实时流,这对于与聊天机器人或虚拟助手进行交互等场景是非常有用的。


微软将在Azure Kubernetes服务中提供该功能。这可以确保了这一功能具备较高的高可扩展性和可用性,让客户能够从单个端点使用基于神经网络的文本到语音转换和传统的文本到语音转换服务。

 

目前预览版的服务提供两种预先构建的英语文本-语音转换服务,有男女两种声音(Jessa和Guy)。未来即将推出更多语言,以及49种语言的定制服务,为希望构建针对其特定需求而优化语音的客户提供定制化服务。

 

文本-语音转换服务的典型应用场景



提高可访问性:文本-语音转换技术使得内容所有者和发布者能够响应人们与其内容交互的不同方式。凭借该技术,视力有障碍或阅读困难的人也能够通过听觉来消费内容。语音输出还能使人们在上下班或锻炼时更容易通过移动设备上获取文本内容,比如报纸或博客。


多任务场景下的反应:文本-语音转换技术让人们能够在驾驶时、或不便阅读的环境中快速舒适地吸收重要信息。该领域的常见应用是导航服务。


增强多模式学习:不同的人有不同的最佳学习方式。在线学习专家发现,同时提供语音和文本有助于让信息更加易于学习。


开发认知机器人和助理:对话能力可能是智能聊天机器人或虚拟助手的重要组成部分。越来越多的公司正在开发聊天机器人,为客户提供引人入胜的服务体验。该技术为聊天机器人和数字化助理的响应方式增加了一个新的维度。


参考链接:

https://azure.microsoft.com/en-us/blog/unlocking-innovation-with-the-new-n-series-azure-virtual-machines/


https://azure.microsoft.com/en-us/blog/microsoft-s-new-neural-text-to-speech-service-helps-machines-speak-like-people/?from=groupmessage&isappinstalled=0


预览版服务申请:

https://forms.office.com/Pages/ResponsePage.aspx?id=v4j5cvGGr0GRqy180BHbR0N8Vcdi8MZBllkZb70o6KdUMDBDTDJXSDdUWVo5TzQwMlpaOTdMQUdHSC4u


更多阅读:

马斯克:人类极有可能生活在更高文明模拟的矩阵游戏中

强化学习重大突破:DeepMind用一个AI在57个游戏中全面超越人类




新智元AI WORLD 2018世界人工智能峰会

全程回顾


新智元于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会,邀请机器学习教父、CMU教授 Tom Mitchell,迈克思·泰格马克,周志华,陶大程,陈怡然等AI领袖一起关注机器智能与人类命运。


全程回顾新智元 AI World 2018 世界人工智能峰会盛况: 

爱奇艺 

上午:https://www.iqiyi.com/v_19rr54cusk.html 

下午:https://www.iqiyi.com/v_19rr54hels.html

新浪:http://video.sina.com.cn/l/p/1724373.html


登录查看更多
4

相关内容

语音合成(Speech Synthesis),也称为文语转换(Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域中的一项前沿技术。 随着计算机技术的不断提高,语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成,再发展到混合语音合成;合成语音的质量、自然度已经得到明显提高,基本能满足一些特定场合的应用需求。目前,语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用,取得了巨大的经济效益。 另外,随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现,语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠
微软研究院AI头条
7+阅读 · 2019年5月17日
标贝科技:TensorFlow 框架提升语音合成效果
谷歌开发者
6+阅读 · 2019年4月29日
方兴未艾的语音合成技术与应用
AI100
8+阅读 · 2018年10月16日
【深度解读】陶建华:深度神经网络与语音
中国科学院自动化研究所
6+阅读 · 2018年7月9日
让翻译人员恐慌的机器翻译系统(附试用地址)
THU数据派
4+阅读 · 2018年3月14日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
Arxiv
6+阅读 · 2020年4月14日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
5+阅读 · 2018年10月4日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关VIP内容
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
相关资讯
对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠
微软研究院AI头条
7+阅读 · 2019年5月17日
标贝科技:TensorFlow 框架提升语音合成效果
谷歌开发者
6+阅读 · 2019年4月29日
方兴未艾的语音合成技术与应用
AI100
8+阅读 · 2018年10月16日
【深度解读】陶建华:深度神经网络与语音
中国科学院自动化研究所
6+阅读 · 2018年7月9日
让翻译人员恐慌的机器翻译系统(附试用地址)
THU数据派
4+阅读 · 2018年3月14日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
Top
微信扫码咨询专知VIP会员