微软“晓晓”让温暖的声音浸润心目图书馆 | AI for Good

2019 年 10 月 15 日 微软研究院AI头条


编者按:读屏软件声音机械;真人录音制作成本高周期长;盲文书“书荒”仍在,且制作成本高、阅读时间长。现在,这些问题已可迎刃而解。微软与公益组织北京市红丹丹视障文化服务中心合作,利用微软神经网络语音合成技术,让温暖的声音浸润心目图书馆!目前已覆盖全国 105 所视障人士学校。微软长期推动科技无障碍建设,为全球公益组织提供支持,希望做低技术门槛,让科技普及世界的每个角落。(搜索微信小程序“心目图书馆”,点击“进入小程序”,语音搜索“微软晓晓”即可收听。)


视障人士日常阅读主要是通过触摸盲文书籍、听读屏软件、真人有声书籍等途径,不过,目前这几种方式仍存在一些局限性,盲文书“书荒”仍在,且制作成本高、阅读时间长,读屏软件声音较机械,不够自然,而真人录音成本较高…


现在,利用 AI 技术这些问题便可迎刃而解。微软 AI 语音团队一直在和中国最大的视力障碍人群公益组织——红丹丹合作探索 AI 电子有声产品。今年,微软智能语音产品团队对红丹丹旗下心目图书馆的 AI 语音能力进行了升级,利用微软神经网络语音合成技术,通过目前较为成熟的微软人工智能女声“晓晓”,并训练新的神经网络男声,设计出了能够大批量文字转语音的平台,打造出了更温暖、更自然的声音。


近日,微软语音团队、微软红丹丹项目团队和红丹丹公益组织的负责人在接受媒体采访时,介绍了微软 AI 智能女晓晓在红丹丹项目中的落地最新进展。


微软神经网络语音合成技术
打造更温暖的声音

对于只能通过触摸和听觉来感知世界的视障人士而言,阅读是一件很奢望的事情,他们通常是通过触摸凸凹不平的盲点来阅读盲文书籍,触摸完一页书所耗费的时间是健全人的数倍。


为了让这些“黑暗中的行者”拥有更好的阅读体验,微软 AI 语音团队和红丹丹达成了合作,探索研究利用 AI 技术将文字合成电子有声读物。2014 年,微软语音团队帮助视障人士在 Azure 上搭建的云端有声读书馆——心目图书馆诞生。其主要为盲人提供有声书借阅服务,目前该图书馆已经覆盖全国 105 所视障人士学校。


在今年的微软骇客松活动中,微软智能语音 AI 产品团队对心目图书馆的 AI 语音能力进行了升级和技术更迭,打造出了更温暖、更自然的声音。


2019 微软骇客松“红丹丹”项目成员


微软亚洲互联网工程院人工智能语音组产品总监丁秉公告诉 InfoQ ,该项目主要利用微软神经网络语音合成技术,通过目前较为成熟的微软人工智能女声“晓晓”,并训练新的神经网络男声,设计出了能够大批量文字转语音的平台。


他表示,深度神经网络的升级,是一个 TTS 代际的升级。区别于传统的 TTS,微软晓晓的声音质量、表现力更好,此外它还在声音细节处理上具有优势,譬如阅读中英混合的文本更加自然、清晰,这得益于运用深度神经网络进行混合计算,令这种合成无缝切换。


微软亚洲互联网工程院语音组产品经理、晓晓语音产品负责人刘越颖介绍,微软神经网络语音可针对不同的文章类型提供不同风格的演绎,目前能做到新闻、情感、故事、助理、客服、历史、记录、唱歌的声音。


在文字转语音的合成速度方面,主要分为两种情况,一种是实时合成,在几百毫秒内便能反馈,一般运用在智能对话、助理等场景。另一种是非实时合成场景,如对整本有声书的长文本合成,所需时间约为人工录音音频时长的 1/3。


丁秉公坦言,微软语音技术和盲文书籍在合成过程中最难的技术点在于 AI 对于上下文、篇章的理解上,在这方面,目前人工智能距离还无法做到像人一样的理解能力。谈到解决方案,微软 AI 语音团队主张循序渐进,先定义声音的类型再深入实现不同情绪的自动演绎,目前,微软采用自动标记 + 人工辅助标记的方法来实现不同声音类型的选择。


AI 技术打破有声内容生产壁垒


除触摸盲文书籍外,很多视障人士日常还会通过读屏软件来进行电子阅读,读屏软件的声音较为机械、生硬,难以产生共鸣,长时间聆听很容易乏力,难以集中。经过本次升级后,微软晓晓的声音质量更高、更接近人类朗读的声音,在收听效果上,会让视障人士感觉更亲切、自然。


红丹丹视障文化服务中心执行主任曾鑫表示,一些盲人学校的孩子在听了微软晓晓的声音后普遍做出了正向的反馈:比现在市场上合成的声音自然多了,不像冷冰冰的机器的声音,更像是人读的,更温暖。曾鑫认为,更有“温度”的声音会帮助提高孩子们阅读的兴趣。


相比普通书籍,盲文书籍的数量只是冰山一角。因为制作成本昂贵等问题,市面上的盲文书籍数量较少,“书荒”仍然存在,类别也不够丰富,现借助微软的智能语音技术平台,可以大批量地、自动化地的将电子书转变为有声书,大大减少人力和时间成本,丰富视障人士有声阅读内容的来源。


一本 100 页左右的纸质书籍,译成盲文书籍要 400-500 页,制作成本在 80-100 元左右,成本较高。而通过云端传送,一本有声书做出来之后,只需少量制作成本就可以做到无限量广域传播。


传统有声书制作需要大量真人录音,就算有志愿者献声可以省去录音费用,但录音的精力和时间成本仍无法避免。受到时间、地域、人力等各种成本限制,完成一本有声书的录制最快也要花上三个月,如果追求高质量的精品读物,时间和资金成本则更高,而微软 TTS 最快仅在几百毫秒内便可完成合成,避免了传统制作方式中存在的速度慢、成本高的问题。


“通过 TTS 合成方式,可以 7 X 24 小时无间断合成,输入文字后声音就出来了,只要有文本的内容,就可以源源不断的输出有声内容,这打破了有声内容生产的壁垒“,丁秉公表示。


技术和公益更好结合


在此之前,微软和红丹丹已是十几年的合作伙伴,2006 年,双方展开首次合作,微软一直在为其提供技术和产品支持。在微软大中华区公益事务总监王岭看来,微软一直在利用自己的技术特长和红丹丹相结合,服务视障人群。


接下来,微软还将和红丹丹一起做更多探索,刘越颖透露,团队还将尝试挖掘具有优质声音特质的视障人才,通过微软的技术助其生成有声内容,让他们也能帮助更多人,实现自我价值。


丁秉公表示,在满足视障人群的学习需求之外,未来还会考虑利用智能语音技术做更多尝试,如帮助具有自食其力能力的视障人群更好地工作。他认为微软技术服务的目标群体不只局限在残疾人,而应延伸到更大的有障碍人群。


此次和红丹丹心目图书馆项目的合作是微软公益发起的又一次行动。


王岭表示,公益和技术相结合,微软一直在路上。微软和公益组织的合作,最早可追溯到 1998 年。2011 年 6 月,微软在全球公布了“Tech for good”理念,并在此后积极践行。除了和红丹丹的合作,20 多年来,微软还利用在线客服、机器翻译、人脸识别、云技术、大数据等技术和平台帮助其他社会残障人士解决所需和处理社会棘手问题,代表性的公益项目包括“ AI for Earth”(地球人工智能)计划、微软人脸识别应用 API 寻找儿童、为中国发展研究基金会“智能村小”项目研发智能远程实时教育系统等。


本文转自InfoQ ,作者刘燕




你也许还想看


感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。




登录查看更多
0

相关内容

微软 (英文名称:Microsoft;中文名称:微软公司或美国微软公司)始建于1975年,是一家美国跨国科技公司,也是世界PC(Personal Computer,个人计算机)软件开发的先导,由比尔·盖茨与保罗·艾伦创办于1975年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。
AI创新者:破解项目绩效的密码
专知会员服务
32+阅读 · 2020年6月21日
商业数据分析,39页ppt
专知会员服务
157+阅读 · 2020年6月2日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
已删除
将门创投
3+阅读 · 2019年4月12日
小冰,请接电话!
微软丹棱街5号
5+阅读 · 2018年4月18日
今天,腾讯开源这些技术,希望能帮助到有需要的人
AI聊天机器人:人生总有起起落落起起起
线性资本
6+阅读 · 2017年12月25日
AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning
Federated Learning for Mobile Keyboard Prediction
Arxiv
4+阅读 · 2018年11月8日
Arxiv
5+阅读 · 2018年10月4日
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2019年4月12日
小冰,请接电话!
微软丹棱街5号
5+阅读 · 2018年4月18日
今天,腾讯开源这些技术,希望能帮助到有需要的人
AI聊天机器人:人生总有起起落落起起起
线性资本
6+阅读 · 2017年12月25日
Top
微信扫码咨询专知VIP会员