讯飞种了一棵有生命的科技树,1024用AI告白百万开发者

2020 年 10 月 23 日 新智元



  新智元报道  

编辑:白峰、卫民、梦佳

【新智元导读】今年的1024科大讯飞全球开发者大会,将人类的温情和生命的根基载入AI。10年来,讯飞开放平台,已经开放334项AI能力,链接230万合作伙伴共建AI生态。科大讯飞董事长刘庆峰表示,未来不属于AI,而是属于掌握了AI的人类。新发布的1024计划让AI变得无障碍,把爱开放给更多人类。而讯飞打造的AI科技树未来还将化身能力星云服务百万开发者!


你所想象的开发者是否都是天生极客、编程大神?
 
10岁的学霸少女包诗淏也是一位开发者。
 
从外表看,她和别的女孩没什么区别。但她却是一位听障者,教室里的课堂,操场上的欢笑,游乐园的喧闹……如果没有助听器,她的世界就是一部无声电影。

               
因为从小拜访各种医院和听器配件店,她对医学设备和助听设备产生了浓烈的好奇。
 
编程,不仅打开了小女孩的耳朵,还启发了她聪明的大脑。如果编程能够改变世界,那么就从研发更好的助听设备开始。
 
国际学校的老师告诉这位小小年纪的编程爱好者, 至少要学到8年级的数学才可以理解算法知识。
 
于是,她给自己树立一年之内学到八年级数学的目标,通过在线学习,在2020年顺利达成目标,还计划, 要在2021学年完成中学数学的全部学习。
 
疫情期间在线考试获得了 Math Kangaroo China 2020 Level 2 Proficiency Award 以及 CAT 编程数学大赛三等奖。
 
后来她还开发了字幕眼镜,专门服务听障人士。以AR的方式借助语音识别的技术,让听障人士可以看到周围人说话的内容。
 
下至童稚,上至耄耋,各种各样的开发者还有许许多多。他们虽然身处不同的境遇,但他们的理想都是用技术改变自己生活的现实世界。
               
1024是2的10次方,又是一年一度开发者的节日。
 
1024,一场属于全球开发者专属的狂欢。 从2017到2020,科大讯飞开发者大会已经走过了四个年头。 这四年来,真正见证了AI如何飞入寻常百姓家。
               

刘庆峰:山就在那里,要以自由的眼光看更远的未来


创业如同登山,而AI就是一座堪比喜马拉雅的高峰。
             
刘庆峰在开篇演讲中提到,「过去十年,我们让机器说话,让语音合成首次超过了人类水平,让机器识别转写准确率超过了人类水平。在国家执业医师资格考试中,全球首次通过了这个考试,超过了96.3%的人类考生。」 这是一个又一个AI攀登的高峰。
               
未来AI的发展,离不开场景的牵引、大量数据的喂养、核心技术的驱动和资本的助推。
               
疫情期间,在武汉,利用智医助理和语音技术,6个小时就做完了前100万用户的随访。黑龙江一名患者,在社区医院通过讯飞智医系统诊断出心梗,及时转诊中心医院,安装3个支架,救了一命。
 
统计数据显示,利用AI推荐个性化的内容,上课两周,原本只能拿40分的孩子做对比例提升到69%。这些丰富的场景给了未来无限的可能。
 
技术驱动,刘庆峰谈到中美脱钩倒逼中国科技内生能力,催生了源头技术的核心创造能力。

同时,需要资本助推,寒武纪、国盾量子虽然没有开启大规模营收,上市伊始就获得了大量的资本支持,正是因为源头技术的创新。
 
「用户不会因为AI的标签而买单」刘庆峰坚信,「一部分人一直存在幻想,以为AI只要包装概念就可以,但我们要回归创新的本质,真正倒逼科学规范。」
 
所以综合来看,刘庆峰提到,要想兑现AI的价值,第一要有场景,第二要有可规模化推广的产品。第三要能证明产品要有比较优势,解决刚需。
                 
刘庆峰还提到,未来讯飞的两个重要技术赋能方向: 情感,让AI更有人间烟火,比如语音语调可以根据对象进行调整。另外,是保护用户隐私,离线版本不连网也能调用的AI能力。
 
有科学杂志提出,未来76%的工作会被AI替代,但刘庆峰的愿景是,「在替代之后会创造出更多的工作岗位,通过社会治理和人文关怀,创造更美好的世界。」
 
AI的本质是赋能,而不是代替。 人的同理心、想象、感动和热爱永远无法被替代。这是未来科技伦理和研发方向的指南。
 
未来不是属于AI,而是属于掌握了AI的人类。用自由的眼光看更远的未来,是AI对人类最真挚的表白!

《1024计划 4.0》「迭代式」发布,「扶摇」直上,把爱开放给更多人类


今年的《1024计划》也是一个重头戏。
 
科大讯飞消费者事业群总裁胡国平在发布《1024计划 4.0》时用了一个词,「迭代式」发布。
 
在往年的教育生态、公益计划的基础之上,《1024计划4.0》内容全新升级为先导计划、城市计划、公益计划。
                   
先导计划:全新AI人才成长体系,「扶摇」「鲲池」计划提供创业支持
 
全新推出了面向行业的AI人才成长体系,整个成长体系分成初级、中级、高级三个大的学习阶段,从易到难分为9级。
 
9118支参赛队伍参与的科大讯飞开发者竞赛成为AI人才实战营,今年新增AI辩论赛和软硬件公益辅具载体两个赛题。
 
「鲲鹏展翅,扶摇直上」。此次讯飞推出扶摇计划和鲲池计划支持大学生创业,面向大学生创业群体提供技术支持,资本对接、业务协同等相关的服务。
 
推出翻译、直播、农业、无接触、数据标注、司法、医疗等十四大行业专题,后续计划发布50个行业专题。
 
服务体系全面升级,在企业会员、专有云和国际站三个维度推出了更加丰富和个性化的服务。
               
城市计划:通过「望闻问切」赋能城市和高校
 
城市赋能方面,进一步建设讯飞城市双创基地和城市地方站,为当地的AI企业提供办公、税收优惠、创业指导等服务。
 
本地化服务方面,积极去融入本地的产业联盟,共同发展。
 
高校赋能方面,主要推进两方面的工作,一是AI开发者社区,另一个是AI实训营。将AI课程融入高校课堂,从大学生群体中真正挖掘开发者。
               
公益计划:首发无障碍AI开放平台,把爱开放给更多人类
 
1024开发者大会上还正式发布了第一个实现无障碍的AI开放平台,帮助视障开发者借用AI能力实现无障碍生活。
 
科大讯飞承诺讯飞听见APP和网站, 持续为所有的听障用户提供终身免费转写服务。
                 
胡国平在接受新智元采访时表示,与前几年相比,全新升级后的《1024计划》 最大的亮点便是从原来基于通用API的产品赋能,进一步进阶到了行业赋能。
 
在AI人才的培养方面,胡国平认为,最关键的核心是要在学习和练手方面的非常有效的结合。光学不练不行,而没有技术基础和知识底蕴的创新,也会存在着天花板比较矮的问题。
 
胡国平还谈到了讯飞今年三个最关键的进展:
 
一是在感知智能和认知智能的核心技术上,继续保持了比较快速的进步速度;
二是在教育、医疗等领域相关的项目成果、应用实效,已经呈现规模化落地;
三是在C端、特别是智能硬件方面的持续发力,也获得了用户的广泛认可。
                   

一棵有生命的AI科技树:再不用担心AI的声音没有人情味儿了!


在国内说到语音AI,几乎无人不晓科大讯飞。

 
但其实,讯飞在AI领域,已经远远超过了语音的范畴。
 
科大讯飞AI研究院常务副院长刘聪表示,目前科大讯飞已经构建起以基础算法为主干节点,以技术体系为生长方向,以场景理解为发展动力,覆盖包含语音识别、语音合成、图文识别等感知方向并拓展到到多语言语种领域,以及面向认知智能的行业认知方向。



             
语音识别
 
科大讯飞在语音识别领域有着深厚的积累。但是,现在的应用场景更加多元化,对识别的精度、稳定性要求也越来越高,要真正做好自然场景下的语音识别,还是很有难度。
 
那讯飞的语音识别,有哪些新的突破呢?
 
现在,讯飞的语音识别技术通过结合自学习更新的能力,可以对领域关键词、应用场景、口音、领域风格等个性化需求进行建模,真实、复杂场景下的语音交互也更自然,解决了语音识别从可用到好用的最后一公里问题。
        背景音比较嘈杂的环境
 
讯飞针对说话背景复杂多样、多人说话语音混叠、文字内容外的特殊声音现象等问题,给出了全场景音频解析的整体方案。结合声音事件检测等精细化建模,可以将音效等特殊声音与正常语音很好的区分并检测出来。

针对包含语音的有效内容,使用基于富信息的语音降噪和分离方案,综合利用声音、文本、说话人等信息。在有条件的情况下,还可以使用多模态的唇形、视线以及麦克风阵列的空间位置等信息来进行联合建模,多次在国际语音识别与分离大赛中夺冠。
               
语音合成
 

过去,语音合成的效果主要用合成自然度MOS分来评估,但是未来的AI应用,不光追求技术可实现,还要更加人性化、更具有表现力、展示维度多模态。


讯飞的语音合成,现在可以做到全场景音效的合成,并且支持交互场景下的微情绪合成,结合情绪识别联动变化,在交互中体现出细致的情绪切换,让人们用不同的语气说话能感受到不同的情绪反馈,更有吸引力和人情味,让虚拟语音助手的交互效果更好。

               
OCR识别
 
除了语音,日常生活中图片是最常见的信息承载方式,从图片中获取信息,也是人工智能领域的一大刚需。
 
讯飞在OCR识别领域,做的可谓是细致入微。目前讯飞的OCR框架已经进化到了第四代篇章级的Encoder+Decoder,可以完成高精度二维复杂版面的端到端识别,相关能力调用量已经超过10亿次。
                 
多语种
 
中文的语音识别、图片OCR在内的很多能力讯飞已经做的非常好了,但是这种能力耗费了大量的资源,如果在另一个语种重复类似的工作,多少有点得不偿失。
 
讯飞认为跨语种的AI能力迁移也很重要,近年来投入了很多精力在多语种方向上,有了多语种技术,讯飞现在已经将语音合成、图文识别等AI能力成功迁移到了多个语种, 文档拍照识别已经支持56种语言,并且平均正确率超过了85%,机器翻译更是扩展到了168种语言。
               
行业认知
 
上面我们说的这些AI算法,可以通过API的方式,快速完成部署。
 
现在,感知智能技术已经较为成熟,但是认知智能才刚刚开始。认知智能不同于感知智能,核心技术只是其中一环,问题定义和持续的迭代优化都很重要,讯飞基于在各个行业积累的丰富经验,构建了行业认知中台,来降低问题定义的难度。  
               
有了这个认知中台,就可以基本达到一个资深行业人士80%左右的认知能力,让场景定义的效率提升50%以上,而且认知中台可以完全私有化部署,数据安全无需担忧。基于认知中台的讯飞智医机器人成为全球第一个拿到执业医师资格证的机器人。
 
在发言的最后,刘聪提出, AI科技树要化身能力星云服务百万开发者!AI要与人类情感结合,变身一棵生命树,科技才能创造一个更美好的新世界!  
           

于继栋:企业数字化的终局是智能化,磐石、擎天两大平台全新发布


AI已经开始融入到我们的生活,教育、医疗等领域有了AI的加持,比以往更加高效。

 
科大讯飞集团副总裁于继栋提到,疫情期间,讯飞为2800万学生提供43亿语音评测服务。司法领域,已经完成了1467个远程法庭的处理,节约了70%的法庭人力。OCR技术让财务发票工作量缩小85%。人脸识别应用到办公考勤等,都是提升效率的利器。
                
AI+园区方面,讯飞已经将停车时间从平均高峰期20分钟缩短到5分钟以内。AI+招聘,利用NLP和OCR可以加速简历筛选,甚至包括颜值分析技术可以辅助招聘官做出决策。
 
而随着无接触化和远程化将成为新常态,无介质无接触的交互延迟控制到了30ms以内。
 
可以感受到,AI正在向场景化和个性化转移,企业的产品如果不跟上智能时代的变化,将面临被淘汰的风险,企业自身的数字化升级迫在眉睫。
 
科大讯飞集团副总裁于继栋认为,「企业数字化升级的终局是智能化,AI+大数据已经成为拓宽新局面的决定性因素」。
               
为了更好地赋能企业数字化转型升级, 讯飞发布了磐石、擎天两大「企业赋能」平台。
 
现在,讯飞的开放平台已经能够提供大部分的AI基础服务,各种API可以很方便的集成到自己的产品当中,但是有些个性化的需求,往往会浪费很多不必要的资源,比如想提供特定领域的语音服务,需要专门的标注数据对通用模型进行微调,标注任务外包出去不靠谱,自己做成本又太高。
 
擎天平台的定位就是「授人以渔」。
 
将数据标注、模型训练、引擎托管、服务编排等AI产品的「后勤」服务细分出来,为各种业务场景提供组合式、一站式的个性化AI需求。
 
如今,很多AI产品的训练和服务都挪到了云端,未来几年AI更将全面云化,所以针对云端计算集群的优化变的尤为重要。
 
磐石平台针对AI服务对云主机集群进行103项专业优化 ,大幅降低了云端AI产品的调试和运维成本,同时还提供了多重的安全和加密服务,让用户只需专注自己的领域,无需考虑非核心业务问题,比如数据加密,集群管理等。
             

一切为了开发者!334项AI能力、超200万生态伙伴,做生态才能生生不息

 
「从讯飞开放平台发布至今,很多老朋友在讯飞创业之后一路陪我们走来。从早期的只有语音合成和识别两个能力,到现在300多个AI能力。从最早的十几个团队,到现在超过150万团队。」刘庆峰谈到开放平台的历程时,感慨万千。
 
10年来,如今科大讯飞开放平台成绩斐然,截至目前已对外开放了334项AI能力及方案,链接超200万生态合作伙伴,累计支持超过29.9亿+终端!
 
十年开放平台,十年踏实耕耘。一切为了开发者!
         

而十年对于AI的落地,其实是一小步。

在这个特殊的历史节点,拿什么奉献给广大的开发者? 刘庆峰讲到,除了核心技术,更重要的还包括客户、渠道和平台优势,以及各地实实在在的产业孵化平台、投资基金。
 
从带动千亿产值的中国声谷,安徽铜陵城市大脑,到长春唯一一个国家级双创中心,再到西安排名第一的孵化器。生态如同一棵大树,根基越深,越可以枝繁叶茂。
 
就如同刘庆峰所说, 「一个企业的成功绝不是单独成为一个帝国,做帝国注定会衰落。只有愿意以自己为核心,开放出自己的资源和能力,形成的产业链,形成的生态体系,才能够生生不息!」
 
下一个十年,相信科大讯飞还将继续和百万开发者一起打造AI生态的繁荣。



登录查看更多
0

相关内容

刘庆峰,科大讯飞创始人,现任公司董事长,语音及语言信息处理国家工程实验室主任,中国科学技术大学兼职教授、博导,十届、十一届、十二届、十三届全国人大代表,全国大学生创新创业联盟首任理事长,中国语音产业联盟理事长。第十四届中国经济年度人物。主要从事语音与人工智能核心技术研究和产业化领域研究。个人主页:https://baike.baidu.com/item/%E5%88%98%E5%BA%86%E5%B3%B0/1966964?fr=aladdin
京东《未来科技趋势白皮书》,101页pdf
专知会员服务
54+阅读 · 2021年2月3日
数字化健康白皮书,17页pdf
专知会员服务
104+阅读 · 2021年1月6日
专知会员服务
27+阅读 · 2021年1月4日
专知会员服务
51+阅读 · 2020年12月28日
2019中国硬科技发展白皮书 193页
专知会员服务
78+阅读 · 2019年12月13日
2019,AI教育的变与不变
雷锋网
3+阅读 · 2019年4月19日
零基础人工智能入门(附源码)
PaperWeekly
6+阅读 · 2018年12月16日
大伽「趣」说AI:腾讯云在多个场景中的AI落地实践
人工智能头条
4+阅读 · 2018年8月1日
创业者和伪创业者的10大区别
创业财经汇
8+阅读 · 2018年6月5日
智能语音成“AI四大项目” 千亿市场待开发
IT时报
3+阅读 · 2017年11月26日
【知识图谱】AI基石知识图谱与百度AI布局
产业智能官
28+阅读 · 2017年11月20日
Arxiv
0+阅读 · 2021年2月6日
Arxiv
0+阅读 · 2021年2月4日
Arxiv
5+阅读 · 2019年10月11日
Arxiv
4+阅读 · 2018年5月24日
Arxiv
6+阅读 · 2018年3月28日
Arxiv
7+阅读 · 2018年1月31日
VIP会员
相关VIP内容
京东《未来科技趋势白皮书》,101页pdf
专知会员服务
54+阅读 · 2021年2月3日
数字化健康白皮书,17页pdf
专知会员服务
104+阅读 · 2021年1月6日
专知会员服务
27+阅读 · 2021年1月4日
专知会员服务
51+阅读 · 2020年12月28日
2019中国硬科技发展白皮书 193页
专知会员服务
78+阅读 · 2019年12月13日
相关资讯
2019,AI教育的变与不变
雷锋网
3+阅读 · 2019年4月19日
零基础人工智能入门(附源码)
PaperWeekly
6+阅读 · 2018年12月16日
大伽「趣」说AI:腾讯云在多个场景中的AI落地实践
人工智能头条
4+阅读 · 2018年8月1日
创业者和伪创业者的10大区别
创业财经汇
8+阅读 · 2018年6月5日
智能语音成“AI四大项目” 千亿市场待开发
IT时报
3+阅读 · 2017年11月26日
【知识图谱】AI基石知识图谱与百度AI布局
产业智能官
28+阅读 · 2017年11月20日
Top
微信扫码咨询专知VIP会员