2018GAITC丨专访搜狗公司首席执行官王小川

2018 年 5 月 13 日 中国人工智能学会 中国人工智能学会

2018全球人工智能技术大会(GAITC)将于5月19-20日在北京国家会议中心举行。大会以“交叉、融合、相生、共赢”为主题,将继续承担起带领人类把握AI时代脉搏的历史重任,并就AI技术的最新研究、最为全面的商业化能力、最具代表性的科研成果,与您共同绘制出最为清晰的AI新时代版图。期间,搜狗公司首席执行官王小川将带来搜狗在人工智能领域的最新研究。

 

近日,王小川接受了大会组委会的专访。


大会组委会:我们知道搜狗一直加强利用AI技术布局翻译市场,也取得了一些不错的成绩。可否就此请您给我们谈一下,您目前针对AI技术的研究重点在哪些方面?

 

王小川:搜狗以语言为核心,专注于自然交互和知识计算,在语音和图像技术、机器翻译和问答解答(Q&A)等方面取得重大突破。


   大数据

搜狗大数据:搜狗大数据依托自有数据及合作数据,对大数据进行分布式存储、分析、建模、挖掘,精准洞察消费者需求,为企业提供营销、指数、标签、舆情多维度服务。拥有智策平台、搜狗指数、大数据舆情服务等产品。


   语音

搜狗语音:可实时将语音转化为文本,并根据上下文自动纠错。目前,搜狗语音识别技术准确率超97%,到3月底,日均语音请求量峰值突破3.6亿次。

情感迁移(TTS):通过语音合成,将文本输出为语音,并且与目标说话人音色相同。


   图像

搜狗识图:通过图像识别技术,分析图片内容的主题,找到与这张图片同主题的其他图片,实现以图识图。

OCR:日均调用次数超过200万次,识别准确率达96%。


   唇语识别

搜狗唇语识别:依靠搜狗自身庞大的数据积累、可视化分析以及人工智能等领先技术,通过从视频中识别出人脸,提取连续的口型变化特征,将其输入到唇语识别模型中识别出对应的建模单元,进而识别出说话人的指令。这项技术可以有效应用于噪音太大或只有摄像头等无法捕捉声音的场合中。


   翻译

搜狗机器翻译:搜狗开发的机器翻译技术,已经成功应用深层神经网络技术优化,具备同时识别语音并进行翻译的能力。

-   在国际顶级机器翻译比赛WMT中获中英和英中双向翻译的冠军

-   业内首个跨语言检索产品:搜狗英文搜索

-   全球首次商用基于深度神经网络的同传翻译技术:搜狗机器同传

-    联合创新工场、今日头条举办AI Challenger全球AI挑战赛,开放超过1000万条中英文翻译数据

 

   对话

搜狗知音OS:集合搜狗语音识别、机器翻译、语音合成等技术,是一个面向手机、电视、可穿戴、车载设备等智能设备的语音交互平台。基于搜狗知音OS,智能硬件与智慧操作系统用户可以使用语音来执行相应的任务,如开灯和电器,搜索信息,并以自然、对话的方式提问。

-   推出语音实时变文字的速记工具:搜狗听写

-   搜狗搜索、搜狗输入法支持用户直接使用语音输入进行交互


   问答

搜狗深智引擎:集合包括智能问答、对话服务、机器翻译、图像识别与OCR、语音识别与合成、智能客服等在内一系列以语言为核心的知识计算技术,帮助软硬件厂商完成产品智能化升级的知识计算平台。

-   与清华天工智能计算研究院合作的人机对话项目在NTCIR-STC2国际全文人机对话评测中斩获第一。

-   国内最早发布对话系统:搜狗语音助手

-   通过Q&A技术,搜狗搜索针对用户的提问提供直接的答案


   机器人

搜狗汪仔机器人:是搜狗联合清华大学天工智能计算研究院,耗资4000万元,研发的问答机器人。基于人工智能技术,搜狗汪仔能听、会说、会看、会思考。搜狗汪仔二代机器人在机械能力(包括手臂、底盘运动)、多媒体答题能力(语音识别、图像识别)、唇语识别能力等方面全面升级。搜狗即将推出身高64cm的小型搜狗汪仔三代机器人。

-   在知识抢答节目中,搜狗问答机器人汪仔打败顶尖人类选手

-   在2017博鳌亚洲论坛年会等会议上,提供会务服务,与参会人互动

-   搜狗汪仔二代机器人新增唇语识别拍照功能。可识别”拍照"二字的唇部动作,进行拍照。

 

大会组委会:仅就单纯的技术而言,怎样构成了搜狗所处市场的核心竞争力?您的这些工作重点会对业界的研究进展带来哪些影响么?

 

王小川:搜狗的人工智能是以语言为核心,在自然交互和知识计算两个方面进行研究布局,重点在语音、图像、问答、翻译等技术上获得突破。目前,在语音识别上,搜狗语音识别技术准确率超97%,语音合成效果接近真人;OCR识别上,搜狗图像识别技术准确率达96%,业内领先;机器翻译技术上,搜狗独创基于神经网络的机器翻译技术,利用注意力模型聚焦源端,使用循环神经网络生成翻译结果,翻译效果与传统的统计机器翻译技术相比,结果更加流畅准确。搜狗首创离线transformer模型解决了一些行业问题。原生的基于transformer的机器翻译系统最大的问题在于它的解码器很慢,搜狗很快解决了解码器的问题,形成了自有的Transformer框架,新系统较原生系统提升了8 倍,机器评分好了3 个BLEU 以上。因此应用到产品的transformer框架已经是离线的。另外,在模型压缩上,现在的大部分神经网络是32 位的,但搜狗尝试做半精度,甚至到8 位存储,产品上将在线模型压缩成大小仅有1/35的离线transformer模型甚至更小。

 

搜狗机器同传是全球首次商用基于深度神经网络的同传翻译技术,在国际学术赛事WMT 2017中,搜狗机器同传获得人工评价指标的双向第一名。中译英系统获得八项机器评价指标中的七项第一,并且获得主要机器指标BLEU第一名。此外,搜狗团队还获得了CWMT 2017机器翻译比赛汉英英汉双向第一。

 

AI技术不断优化搜狗的产品体验,带来更多的用户,大量的用户数据又反哺于技术发展。

 

AI技术也使得搜狗输入法升级为对话系统。基于深度学习技术,搜狗输入法的智能联想预测能力得以不断强化,从而大幅提升了用户输入效率;基于语音识别、OCR技术,搜狗输入法提供了语音输入、拍照输入等多种输入方式,让人机交互更加自然。借助翻译技术,我们支持用户在聊天场景下语音和文字输入的自动翻译。

 

除此之外,依靠AI翻译技术,搜狗在今年的合作伙伴大会上发布了两款基于机器翻译技术的智能硬件,搜狗旅行翻译宝和搜狗速记翻译笔,两款产品均搭载了业内领先的搜狗深度循环神经网络机器翻译系统,能够满足旅游、学习等多个场景下的翻译需求。其中搜狗旅行翻译宝已于3月正式上市,以业内领先的离线语音翻译和离线拍照翻译功能为市场所认可和青睐,产品首发销售额破1000万。

 

大会组委会:针对机器翻译。人们一直期望其可以代替人类翻译,为此去年起神经网络技术得到了不小的重视。您认为当前我们对此的研究,处于怎样的水平?


王小川:搜狗拥有业界最新的神经机器翻译技术,利用注意力模型聚焦源端,使用循环神经网络生成翻译结果,翻译效果与传统的统计机器翻译技术相比,结果更加流畅准确。

 

在神经网络翻译技术的应用上,搜狗也走在行业前面。比如,搜狗机器同传是全球首次商用基于深度神经网络的同传翻译技术,在国际学术赛事WMT 2017中,搜狗机器同传获得人工评价指标的双向第一名。中译英系统获得八项机器评价指标中的七项第一,并且获得主要机器指标BLEU第一名。此外,搜狗团队还获得了CWMT 2017机器翻译比赛汉英英汉双向第一。

 

同时,搜狗也将业内领先的transformer模型应用在硬件产品搜狗旅行翻译宝上,并通过业界领先的神经网络压缩技术将在线模型压缩成大小仅有1/48的离线transformer模型,翻译效果与线上基本持平,运算速度更快,并且没有网络延迟,响应更及时,将对话翻译时间控制在200ms以内,确保了用户使用的流畅性和翻译的准确性。

 

目前机器翻译仍存在瓶颈。一方面在语音识别环节存有难度,因为语音的错误与翻译叠加后,容易出现偏差极大的错误;另一方面,机器翻译结果还做不到像人类翻译一样的“信达雅”。


大会组委会:那么您本次峰会会为我们分享哪方面的内容?期望传递怎样的理念让人们更好地认知人工智能?


王小川:

   搜狗在人工智能技术上的前沿思考与应用落地。

   期待传递的理念

 

在对人工智能的认知上,我认为人工智能技术与人类相伴,通过让技术适应人,人类被解放出来。在此基础上再去操控这些技术,人类将变得更加强大。因此我们人类应该以更好的姿态拥抱技术,让个体变得更加强大,让地球文明变得更加美好。拥抱人工智能技术,才能让技术更好的造福人类。

 

翻译技术走向实用化的历史意义,不亚于人类发明了电。实际上今天各个国家之间的冲突、不信任是因为语言和文化差异引起的,一旦翻译技术瓶颈被解决,不仅我们可以更容易获取全球信息,外国人也将更了解我们。搜狗本身具有语言的基因,我们做输入法、搜索,一个是用中文表达,一个是用中文获取信息。我们做翻译,将它实用化,用中文走遍世界。

 

我们现在与世界沟通都在使用英文,在英文的游戏规则下学习、工作,国人的负担是很重的,而且并不掌握话语权。借助机器翻译,我们期待能用中文和世界进行沟通,获得全世界的信息,也能让全人类之间有更多的交流和协作,推动人类命运共同体的构建。

 

大会组委会:在人工智能技术对生活和工作产生越来大的影响力,这引起了更多人对于这一技术的更为具有科学性的关注。对此,您认为我们是否已经处于一个AI时代?

 

王小川:我们无疑已经处在一个AI的时代里,AI在各种场景下影响我们的生活和工作。

 

AI技术已经可以做到人类某个领域做不到的事情,比如那些通过给机器输入一个准则,让它按照规则输出结果的工作,已经可以被机器取代,将人解放出来。但同时技术并不具备人类强大的创造力和精神力,但凡需要一些创造力或者数据样本不够多的领域,机器还是无能为力的。

 

我认为技术与人类相伴,通过让技术适应人,人类被解放出来。在此基础上再去操控这些技术,人类将变得更加强大。在当今的时代里,我们人类以一个更好的姿态拥抱人工智能技术,才能让技术更好的造福人类。

 

大会组委会:人们该怎样科学地认识这一技术的进展?例如,人们该怎样解决,越来越依靠算法但是也要面对缺乏足够数据搜集导致的“有缺陷的算法”的局面?

 

王小川:目前情况来看,人工智能技术的发展中,主要面临的陷阱有两个,一是技术上存在缺陷,无论是自动驾驶还是语音识别,都存在技术上的缺陷,需要去完善;二是对于很多人工智能创业团队来讲,会存在“带着技术找市场”的问题,但在这个过程中还没找到市场就出局了,或者找到市场后,技术已经落后。此外,人工智能特别需要数据支持。对于人工智能,今天大家可能认为还讨论的是算法的问题。但如果只有算法,没有数据,会面临两个困难,算法没法获得真正的提升,找不到对应的市场。所以一些缺乏数据的创业公司,很难参与到其中。

 

最合理的解决方式是带着技术应用到现有的产品中,不断通过人工智能技术提升产品体验,并且在原有市场的基础上实现更大的价值。

 

大会组委会显然AI本身的创新和因创新带来安全方面的思考让这一行业变得更有前景。例如,AI开发者队伍的壮大。当下开发者投身AI,您认为有哪些力的因素可以帮助他们尽快做出成绩?

 

王小川:相比之前的时代,人工智能时代中小创业者实现颠覆,成长为BAT级别巨头的机会并不大。巨头们占据了先天的生产资料——数据,因此在竞争中处于优势地位。因此建议中小型人工智能公司与保有大量数据的传统行业——例如零售业、金融、安防等,展开合作,实现优势互补。

 

中国的人工智能产业已经处在了世界前列。尽管在技术与基础理论上,与西方发达国家仍有差距,但中国在互联网的发展速度、资本与产业化等方面更有优势。当前人工智能领域存在泡沫,但这并不是坏事,创新里面有成功也有失败,要允许泡沫的存在。

 

大会组委会:看您同时担任了清华大学天工智能计算研究院联席院长,可否介绍一下您在这方面工作的情况?这是否也在说明通过人工智能带动的这一次智能化设备热潮,来自学院研究机构的研究成果转化为市场实践产品,这种关系变得更为紧密?

 

王小川:清华和搜狗的合作是起始于2007年的“清华搜狗搜索技术联合实验室”,在9年合作的基础上,2016年4月建立天工智能计算研究院,是双方联合的再一次升级与突破,不仅能发挥清华大学在计算机科学领域的技术优势,还可以结合搜狗的产品经验和市场优势,在人工智能领域开展更加深入的研究,并快速完成技术向产品的转化。搜狗有相当的研发实力,清华有很好的理论能力,通过产学研的水乳交融,力争把中国互联网的竞争从商业模式竞争真正带向技术竞争,在全球拥有一席之地。

 

这个研究院主要做两个方面的贡献,一方面是在理论上通过大师的引入,跨学科的研究,通过企业的介入,能够有一些在学术上突破性技术的发现,以及能够把这些技术跟企业创新结合,做出一些黑科技的产品。

 

以前在提产学研的时候,容易出现的情况是:要么是学校成果做一个转化,但是转化的时候企业不一定接得住。要么就是企业本身只是为了品牌,赞助一下学校,并不一定有真正的需求。

 

但此次合作,搜狗有相当的研发实力,清华也有很好的理论上的能力,双方是一个紧密的合作。在问题的提出层面,我们深度介入,在数据的传输层面,跟学校通过光纤拉在一块,甚至双方坐在一块共同讨论问题,给学校提供工程师的支持,增强联合的研发,而不只是一种成果的转化。在图像领域,我们融合了贝叶斯包括深度学习体系,实现手写字体的风格迁移,能根据少量数据就实现该种风格的字体合成。在机器翻译领域,基于大规模多语言数据的积累,不断取得进展,利用后验证则化向神经网络融入先验知识,提出了面向低资源语言的神经机器翻译技术,基于枢轴语言的联合训练方法、基于“教师-学生”框架的零资源神经机器翻译技术和基于最大期望似然的机器翻译训练方法,突破了机器翻译语种覆盖度受限的瓶颈,使得资源稀缺的小语种翻译成为可能,并实现了多语种翻译的快速部署。不仅如此,基于层级相关反馈的神经机器翻译可视化分析技术,大幅度提升了对基于深度学习的机器翻译系统的分析与调试能力,该成果也入选了自然语言处理领域最顶级国际会议ACL 2017杰出论文。目前,研究院的研究成果已应用于搜狗相关产品及服务中,其中搜狗翻译已能支持61种语种之间的互译。


登录查看更多
0

相关内容

搜狗凭借对前瞻性技术趋势的把握和敏锐的市场嗅觉,已经成为中国互联网的创新典范,也是最具发展潜力的公司之一。搜狗的产品围绕互联网的最基础应用,其中输入法、浏览器、搜索三大产品均名列前茅。2010年8月9日,在引入阿里巴巴集团和云峰基金等战略投资者之后,搜狗从搜狐分拆,成为独立运营的公司,王小川出任搜狗首席执行官。
【中科院信工所】视听觉深度伪造检测技术研究综述
专知会员服务
40+阅读 · 2020年4月15日
【CAAI 2019】自然语言与理解,苏州大学| 周国栋教授
专知会员服务
62+阅读 · 2019年12月1日
讯飞来了,一大批人将面临失业!
创业财经汇
5+阅读 · 2018年4月25日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
2017年中国计算机视觉行业研究报告
艾瑞咨询
6+阅读 · 2017年12月7日
智能语音成“AI四大项目” 千亿市场待开发
IT时报
3+阅读 · 2017年11月26日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
3+阅读 · 2018年3月21日
Arxiv
8+阅读 · 2018年1月12日
Arxiv
23+阅读 · 2017年3月9日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关VIP内容
【中科院信工所】视听觉深度伪造检测技术研究综述
专知会员服务
40+阅读 · 2020年4月15日
【CAAI 2019】自然语言与理解,苏州大学| 周国栋教授
专知会员服务
62+阅读 · 2019年12月1日
Top
微信扫码咨询专知VIP会员