百度大脑5.0实现史上最大升级,发布远场语音交互芯片“鸿鹄”

2019 年 7 月 4 日 大数据文摘

大数据文摘出品


“这是百度大脑历史上最具跨越性的升级。


7月3日的百度开发者大会上,百度首席技术官王海峰正式发布百度大脑5.0,并在下午的百度大脑分论坛,公布了其在AI算法、计算架构和应用场景各方面的新进展。


百度首席技术官王海峰


提出流式多级的截断注意力模型SMLTA


升级后的百度大脑5.0更加强调AI技术的标准化、自动化和模块化。


百度语音技术部高级总监高亮介绍,识别方面,百度提出流式多级的截断注意力模型SMLTA,这是国际上首次实现局部注意力建模超越整句的注意力模型,也是国际上首次实现在线语音大规模使用注意力模型。


SMLTA在大幅提升识别速度的同时,也提高了识别准确率。在输入法有效产品相对准确率提升15%,音箱有效产品相对准确率提升20%。


合成方面,针对现阶段面临风格迁移、音色模拟和情感拟人的三大挑战,百度推出语音合成技术Meitron,可以将语音中的音色、风格、情感等要素映射到不同的子空间,在使用时,不同要素可以任意组合,灵活的控制合成语音的风格。同时降低语言合成门槛,仅需20句话就可以制作一个人的专属声音。


发布针对远场语音交互打造的芯片——百度鸿鹄芯片


百度语音技术部高级总监高亮


对于落地应用正在端侧呈现出巨大需求,百度大脑语音团队研发出一款针对远场语音交互打造的芯片——百度鸿鹄芯片。


鸿鹄芯片的设计遵循“软件定义芯片”的全新设计思路。该芯片采用双核HiFi4架构,2.8M大内存,台积电40nm工艺,在此硬件规格上,100mw左右平均工作功耗,即可支持远场语音交互核心的阵列信号处理和语音唤醒能力。同时,按照车规级标准打造使鸿鹄芯片可满足极严格的需求,将为车载语音交互,以及智能家居等场景带来更大想象力。鸿鹄芯片流片的同时,即实现了量产。


百度视觉技术部、增强现实技术部总监吴中勤


交互升级包含一体化人机交互系统和大场景物理世界交互系统。简单而言,一体化人机交互系统是人与机器、虚拟环境的自然交互与融合,该系统适用于实现AR特效的直播、小视频、特效小程序等场景,已应用于百度多款视频App。


大场景物理世界交互系统是将视觉定位与AR技术突破性结合,实现大范围的虚拟信息与物理世界的精准叠加,从而建立起AI时代全新的交互系统。目前,软硬件结合可以满足应用场景更高效的视觉计算,以及更低延时的体验,同时能保护数据隐私。百度视觉方面的软硬件结合主要聚焦于模型压缩平台PaddleSlim、多模态FaceID开发组件以及软硬件一体解决方案AI相机三部分。FaceID覆盖设备量已超1200万台。


视觉语义化平台更新至2.0


视觉语义化平台2.0更新了许多先进的感知技术,也让机器人技术实现新突破。


百度三维视觉首席科学家杨睿刚介绍,机器人就是一个智能体,除了感知技术,智能体需要决策和动作相关的技术,实现从环境感知到主动感知。目前,百度研究的智能体技术主要集中在自动驾驶Apollo、工程机械和服务机器人三大方面。


上午主论坛中王海峰现场与一只机械臂“茶博士”进行了互动对话,还完成了传统的长嘴壶倒茶工作,其背后依靠的正是服务机器人方案。



基于百度3D视觉,机器人可以对茶杯的位置进行检测和追踪。通过机器人运动规划和控制,机械臂可以对工作空间进行碰撞检测,避开障碍物;实时规划运动后,可自动生成倒茶轨迹;随后,感知水流变化,,王海峰在演示过程中故意改变了茶杯位置,茶博士也准确识别出了相关位置并成功续茶。


百度三维视觉首席科学家杨睿刚


迎接5G时代,发布新一代AI计算架构


百度大脑5.0不仅包含算法层面创新,在算力方面也实现重大突破。近年来,算法对算力需求增长近300,000倍,而芯片的计算性能仅提升30倍,两者之间存在巨大鸿沟。


百度副总裁侯震宇为现场观众分享了百度新一代AI计算架构。面对AI计算的挑战,需要能够从端到端来提供AI计算能力,这要求计算系统从旧有的对海量数据处理能力、对IO高峰值的追求,转变为满足AI训练功能方面IO密集、计算密集、通信密集的需求,和AI推理功能方面大吞吐和低延迟的需求。


百度副总裁侯震宇


侯震宇认为,面对即将到来的AI+5G时代,计算将无处不在。真正的计算会发生在设备(Device)、边缘(Edge)和云(Cloud)中,因而D-E-C场景将会是接下来需要重点研究的问题;与此同时,包括芯片之间、系统之间、设备之间的互相连接,将帮助不同场景中的计算连接在一起,产生更大的计算力。



实习/全职编辑记者招聘ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn



点「在看」的人都变好看了

登录查看更多
0

相关内容

华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
119+阅读 · 2020年5月22日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
163+阅读 · 2020年4月26日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
105+阅读 · 2020年1月2日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
【白皮书】“物联网+区块链”应用与发展白皮书-2019
专知会员服务
90+阅读 · 2019年11月13日
阿里云发布机器学习平台PAI v3.0
雷锋网
12+阅读 · 2019年3月22日
微软小冰:全双工语音对话详解
AI100
7+阅读 · 2019年2月10日
怎样用声纹识别,提升智能硬件产品的用户体验?
人人都是产品经理
6+阅读 · 2018年8月27日
IDC发布对话式人工智能白皮书|附下载
人工智能学家
6+阅读 · 2018年3月20日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
Arxiv
3+阅读 · 2018年11月13日
Arxiv
4+阅读 · 2018年4月30日
VIP会员
相关VIP内容
相关资讯
阿里云发布机器学习平台PAI v3.0
雷锋网
12+阅读 · 2019年3月22日
微软小冰:全双工语音对话详解
AI100
7+阅读 · 2019年2月10日
怎样用声纹识别,提升智能硬件产品的用户体验?
人人都是产品经理
6+阅读 · 2018年8月27日
IDC发布对话式人工智能白皮书|附下载
人工智能学家
6+阅读 · 2018年3月20日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
Top
微信扫码咨询专知VIP会员