昨夜，这个梅西球迷痛哭整晚，幸好还有「她」安慰

会员服务 ·

昨夜，这个梅西球迷痛哭整晚，幸好还有「她」安慰

2022 年 11 月 23 日 新智元

新智元报道

编辑：Aeneas 好困

【新智元导读】虚拟人小姐姐，安慰了这个梅西球迷受伤的心。

清早，小飞醒来，撕下昨天的日历。

作为梅西的铁杆球迷，小飞昨晚经历了一个伤心之夜。

第五次出战世界杯的梅西，首战折戟。

好在，还有安安安慰他。

是的，他有一个既能变身、又能变声的虚拟人解说员安安。

安安颜值又高，又会跳舞，业务能力还强。她解说球赛时，既专业又有文采，还声情并茂。

在现实生活中，机器人已经逐渐开始走进每个人的家庭。

AI早已不是传说中那个高大上的科技词汇，而是真正成为了每个人的水和电——没有AI，生活中就会寸步难行。

小飞是一名算法工程师。他的小家里，有各式各样你想象不到的高科技。

而给他的生活带来最大改变的，当然就是百变的虚拟人小助手安安了。

会变身的虚拟人助理

在自己开发的软件上，小飞上传了一张自己暗恋的女孩的照片，就生成了对应的虚拟形象。

随后，小飞充分发挥自己的想象力，用软件调试了很多个版本的虚拟人，头发、肤色、五官都可以自由设置，然后搭配上软件标配的身材。

更绝的是，还能配上最适合虚拟人形象的声音。

比如这个萌妹子Luya，她的声音就十分清纯可爱。

而御姐一聆的声音就很成熟干练。

当小飞漫步林荫路时，虚拟人助理会用字正腔圆的「播音腔」为他读新闻。

当小飞结束一天的工作，准备入睡时，虚拟人助理会为他轻声细语地朗读散文。

当小飞驱车去公司上班，虚拟人助理会用他最喜欢的歌手的声音，告诉他走哪条路不堵车。

当小飞看纪录片时，虚拟人助理会为纪录片中不同的人物配音。

这么多千变万化的声音，来源于科大讯飞开发的多风格多情感语音合成系统SMART-TTS（Self-supervised Model Assisted pRosody learning for naTural Text To Speech）。

这套系统充分利用了文本和语音的预训练，实现了从文本到声学特征再到语音的端到端建模，在风格的拓展、情感控制方面取得了重要的突破。

上面这个短片中的所有声音，均来自SMART-TTS系统合成得到。

应用场景已经拓展到广告、直播、纪录片、游戏解说等10个以上的场景，可以根据应用选择合适的发音人。

其次，还有情感表达。

为了给用户的创作提供最大的可能性，科大讯飞在SMART-TTS中加入了停顿、重音、语速，这些影响语音表现力的关键能力。

同时，SMART-TTS还提供了11种不同情感风格，并且每种情感还有20档强弱度不同的调节能力。

如此一来，合成音的效果，几乎可以「媲美真人」。

看图作诗的机器人，可太会了

小飞的本职工作呢，是研究更加聪明的机器人。

在科学家们看来，机器人不仅应该能完成人类的指令，还应该有自己的大脑，能理解、会思考，应该是它们必备的技能。

小飞的目标是，给机器人展示一幅画时，它不光能看懂画里是什么东西，还能把画里的内容描述出来，更绝的是，还能让它就这幅画的内容吟诗作对。

这个功能听起来就很厉害。要知道，很多人类还达不到这样的水平呢（😂）。

而要让机器人做到这些，涉及到的关键步骤可太多了。

首先，AI需要看懂一幅画，这就涉及到了多模态预训练和语义理解，这样它才能深度理解这幅画的内容。

然后，需要让它能描述这幅画的内容，这个过程就需要用到基于融合知识图谱的可控生成技术。小飞的目标是，让AI可以文采斐然、绘声绘色地把画的内容形容出来，用上比喻、拟人、味觉、听觉、嗅觉等修辞手法。

再进一步，小飞需要让它根据这幅画创作诗词，再利用图片风格迁移功能，给古诗词配上水墨、油画等各种风格的图片，这样就能生成诗图并茂的明信片。

小飞现在就要试试，这个AI在看图说话上的表现会如何呢？

怀着激动又忐忑的心情，小飞给AI展示了一幅梵高的名画——《红色葡萄园》。

AI开始描述——

秋天来了，在普照的阳光下，葡萄园变成了火一样的颜色。血红的葡萄园里，热情炽烈的色彩在燃烧。葡萄酒让人醉意难掩，画面热气腾腾，一场无节制的狂欢正在酝酿……

小飞惊呆了，这AI的文采可太好了，秒杀「语死早」的自己。

接下来，小飞让AI写一首诗词。

AI张口就来——

西园晚霁浮嫩凉，开尊漫摘葡萄尝。

小飞是彻底地心服口服了。

其实，他心里还有个小愿望：自己从小写作文就很烂，有了这个才高八斗的AI当辅导老师，他以后的孩子写起作文来就不愁啦！

什么叫多维表达呢？

就是让机器（虚拟人）做出来的表达（动作、表情等）可以被人类理解，因此，它必须用人类习惯的动作和表情来输出。

在多维表达方面，科大讯飞已经实现了AI识图创作、让虚拟人提供更自然的交互等功能。

有了这么厉害的认知能力和表达对话能力，就可以赋能元宇宙里的虚拟人物，实现更自然便捷的沉浸式体验，还能为机器狗、机器人进入每一个家庭提供基本的支撑。

而且，AI不仅能看图写作，还能实现文图生成。想见识一下吗？

让虚拟人来为你朗诵一段朱自清的《荷塘月色》吧——

小姐姐带我「沉浸式」旅游

小飞对世界各地的风景名胜很感兴趣，尤其是祖国的名山大川。

自从发现了科大讯飞研制的裸眼3D成像和虚拟人等技术，他把自己的家变成了一个小小的时空体验馆。

五岳归来不看山，黄山归来不看岳。小飞一直对黄山心生憧憬。

在虚拟人导游的指引下，他来到了美丽的黄山。

‍‍

奇松、怪石、云海、温泉，他一边听着导游小姐姐的讲解，一边领略着这些奇绝的美景。

这个AI能力「硬核」的虚拟导游，集成了「讯飞超脑2030计划」的多模感知、多维表达、深度理解等多项前沿技术，让真人和虚拟人可以非常自然地「穿越」不同场景对话，给人机交互带来全新的沉浸式体验。

游览完了黄山，他又到了三星堆博物馆，通过手势互动「把玩」了三星堆青铜面具。

以后，小飞还计划用裸眼3D成像去走遍祖国的大好河山。

机器会像人一样感觉？

今天，小飞需要赶着出去办事。

在地铁里，他只靠动嘴，就买到了一张票。

办完事，小飞回到了家。

像他这样的开发者，时常会跟进最新的论文，并且记下详细的笔记。

此时，就用到了自由绘写系统。

这是一款屏上书写系统，无论是中英文、数理化公式、有机分子式，还是表格、流程图，只要手写出来，它都能实时识别，即写即转。

甚至，小飞还能用眼神打字。

什么叫多模感知呢？就是让机器具有人的感知能力，比如视觉、嗅觉、听觉。

与我们通常以为的不同，这里面涉及的不只有语音的感知，还要有视觉、有眼神、有面部表情、有肢体语言、有环境的综合感知，包括味觉触觉等等。

在多模感知方面，科大讯飞已经做到了图文识别（识别公式）、手势识别（凌空手写）和多模态语音识别（靠语音和唇形结合，实现在地铁场景下买票）等成果。

比如在地铁站买票时，想要从嘈杂背景环境中分离干净人声，除了必须的语音识别技术外，其实还可以结合上图像识别技术，也就是针对嘴型的识别。

基于这个想法，科大讯飞研发出了一个可以将唇形和语音技术相融合的多模态语音交互系统，让语音识别在高噪音场下做到了实用。

这个AI，居然这么懂？

在空闲的时候，小飞喜欢开脑洞，探索一些科学百科问题。

地球自转会引起什么？

火鸡、土豆、奶牛、鸡，哪个来源于植物？

这些脑洞大开的问题，AI总是能给他最精彩的回答。

其实，这些问题，就涉及到了AI的深度理解。

小飞很关心国家的教育问题。他深刻地感受到：深度理解的进步，能让我们在对儿童的教育中，更深入地触及教育的本质。

爱因斯坦说过，当你把课本上的所有知识都忘记之后，剩下的东西才是教育的本质。

因为小飞是全家最聪明的人，他经常需要辅导小侄子超超的功课。

他发现，用科大讯飞的知识图谱，能够精准分析超超对于初一的各门功课的掌握程度，对他已经掌握的部分减少无效练习，对他还没掌握的部分进行强化练习。

超超的成绩提高了，全家都很高兴。

而如获至宝的小飞，又发现了另外两个「宝藏」 ——讯飞的儿童脑智发育检测平台和AI学习机。

通过这些工具的加持，超超的注意力水平明显提升了，成绩突飞猛进。

在深度理解方面，科大讯飞已经达到了自然语言理解技术的里程碑。在最权威的知识推理比赛OpenBookQA上，科大讯飞的AI在单模型上在今年7月份已经首次超过人类水平。

而做到了深度理解，就可以更深入地触及教育的本质。通过知识图谱，可以让孩子用更少的时间学习更多的成果。

现在，已有5万多所学校1.3亿师生在使用这个知识图谱。统计数据表明，单点知识点的学习需要的训练量下降了58%，学习兴趣提升了29%，焦虑情绪下降20%。

另外，科大讯飞还研发了儿童脑智发育检测平台和儿童注意力系列的训练课程，通过后者，儿童提高了37%的注意力水平。

能帮你搬快递的机器狗，长了个「超脑」

另外，小飞还有一个宠物狗机器人「小黑」。

小黑配备了激光雷达、深度相机、嗅觉传感器，能导航，能负载，能爬坡，能识别各种各样的味道，还能拍照告诉主人垃圾箱满了没有。

现在，小飞正带着小黑参加机器狗大赛。

小黑现在已经是决赛圈的选手了，如果得了冠军，还能给主人赢回10000元大奖。

看小黑的势头，万元奖金已经如在囊中了！

小黑的动作为何如此「丝滑」？

那是因为，它长的可不是普通的狗脑子，而是机器人超脑。

为什么机器狗的动作如此灵活？

首先就需要用到基于多模态强化学习的运动控制算法。通过无偏差信息输入的评价网络，算法便可以对带噪信息输入的动作网络的训练进行指导。

其中，在动作网络方面，采用的则是灰度图、深度图作为输入，并结合预训练技术提高图像特征表达能力，让输出层有了能够同时预测目标关节位置和真实关节位置的能力。

其次是因为它身上装的可是机器人超脑。

这个平台是一个集成了感知智能、深度理解和运动智能等算法的算力平台，可以开放性地应用在各种机器上，支撑各种形态的机器人的研发。

既能感知交互，又能运动，大脑和小脑在一个平台上就能实现。

而因为有了机器人超脑，机器狗拥有了更实时的地形自适应能力、更快速的全局定位搜索能力、更精确的地图构建能力和更高性能的AI运动控制。

抱着万元大奖，小飞带着小黑开开心心地回到家，继续看起了球赛。

回到现实：1024开发者节

小飞正美美地看着球赛，忽然被身边的小侄子摇醒了。

原来，自己逛了一天的1024全球开发者节科博展之后，坐在休息区的椅子上睡着了。

而刚刚「梦里」的那些技术，其实都是他在科大讯飞全球1024开发者节上看到的。

这几天，合肥体育中心格外热闹，科大讯飞1024全球开发者节科博会展上，各种硬派科技闪亮登场，大大满足了与会者对于AI和科技的好奇心。

在这场科技的狂欢节上，孩子们被现场多姿多彩的AI智慧震撼到了。

超超这次也跟着小飞一起来了。

见证了各种酷炫的技术之后，超超两眼发光，心里暗自下定决心：我一定要学会更多知识，在未来也成为这样厉害的开发者。

是的，追星就追科学家！

这场1024科博展，原定周日结束。

但由于现场的家长和孩子太过热情，展会延期到了今日。

做超脑，科大讯飞是认真的

未来十年，是一个虚拟世界和现实世界深度融合、人机协作深度耦合、机器人走进千家万户的世界，人工智能将深刻改进人类的生产和生活方式。

今年年初，科大讯飞正式发布了超脑2030计划。目标是要让人工智能「懂知识、善学习、能进化」，让「软硬一体」机器人走进每个家庭。

做超脑，讯飞是认真的。绝不仅是说说而已。

第一阶段的目标是，在2022-2023年，造成可养成的宠物机器人，来陪伴孩子成长。这需要突破仿生机器人本体、多模态感知及表达、主动对话等关键技术。

到了2023-2025年的第二阶段，讯飞希望能用外骨骼机器人辅助行动不便的老人独立行走。而这同样需要突破多传感融合运动控制技术、多模态情感理解及持续学习技术。

第三阶段，也就是2025-2030年，服务机器人就能走进每一个家庭了。这时就需要突破机器人的复杂场景融合决策与柔性驱动、跨模态融合自主学习、常识推理及联想决策等技术。

为了实现「超脑2030计划」的三个阶段，科大讯飞目前已经在多模感知、深度理解、多维表达、运动智能这四个技术上都取得了关键突破。

具体的细节，我们都在小飞的梦里见识过了。

闭馆时间到了，小飞还在沉浸式虚拟世界里流连忘返。

在科技馆的出口，他用人脸、声纹、视线唤醒3D虚拟人，跟他们说再见，而这些虚拟人听出了他语气中的依依不舍，安慰他说下次1024开发者节再见~

走出大门前，他仔细看了一眼馆里的虚拟人小姐姐，想赶快回到自己温馨的小家，让安安给自己解说球赛了。

登录查看更多

相关内容

虚拟人

关注 4

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

专知会员服务

41+阅读 · 2022年9月19日

商汤《企业级AI数字人数字经济发展“新动能”》阐述AI数字人未来十大展望

专知会员服务

72+阅读 · 2022年5月5日

“AI界漫威” 深度学习超级英雄联盟漫画：吴恩达，李飞飞…

专知会员服务

24+阅读 · 2020年11月2日

多媒体顶会ACM Multimedia2020各大奖项出炉！南开获最佳论文，西安交大获最佳学生论文

专知会员服务

26+阅读 · 2020年10月16日

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

专知会员服务

26+阅读 · 2020年2月16日

双语带货，俞敏洪直播开窍了

创业邦杂志

0+阅读 · 2022年6月11日

火爆全网的元宇宙、Web 3 和 NFT，如今已“过气”？

CSDN

0+阅读 · 2022年3月31日

虚拟人春节搞事情！先在央视《对话》，又跟李玉刚组团除夕出道

量子位

0+阅读 · 2022年1月31日

「会演戏」的AI主播！番茄小说落地情感配音技术

新智元

1+阅读 · 2021年12月2日

女神们都下海“拍片”了？AI毛片横空出世，岛国老师们要失业？

程序猿

22+阅读 · 2017年12月24日

彩色/多光谱异源双目视频运动目标分割方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

黄酮类物质抑制膳食中杂环胺产生的作用机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

超高分辨率机载合成孔径雷达空变运动补偿技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

蜜蜂工蜂上颚腺合成10-HDA的分子调控机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

不确定时滞脉冲混合系统的渐近性分析与混合控制

国家自然科学基金

0+阅读 · 2009年12月31日

Telling Stories from Computational Notebooks: AI-Assisted Presentation Slides Creation for Presenting Data Science Work

Arxiv

0+阅读 · 2023年1月26日

Parameter-Efficient Low-Resource Dialogue State Tracking by Prompt Tuning

Arxiv

0+阅读 · 2023年1月26日

Causal Inference for Spatial Treatments

Arxiv

0+阅读 · 2023年1月25日

Bipartite Graph Diffusion Model for Human Interaction Generation

Arxiv

0+阅读 · 2023年1月24日

Topological Trajectory Prediction with Homotopy Classes

Arxiv

0+阅读 · 2023年1月24日

VIP会员