百分点刘译璟：大数据引领AI热潮，智能交互是下一步重点

2017 年 7 月 19 日 AI前线 Vincent

编辑｜陈思

7 月 6 日 XWorld 大会上，以色列历史学家，《人类简史》和《未来简史》作者尤瓦尔·赫拉利发表了演讲，谈及了人工智能对人类社会未来发展影响的看法。在下午的分论坛中，百分点集团技术副总裁兼首席架构师：刘译璟分享了关于大数据与人工智能相互融合的一些思考。在之后的媒体访问中，他更是进一步发表了对大数据与人工智能未来发展的看法。

数据的发展影响了 AI 发展

刘译璟在采访中说道，这一轮 AI 的热潮从 2010 年开始，2010 年因为在语音和图像上，AI 得到了非常大的效果的提升，二十多年图像和语音的识别率一直提不上去，而深度学习让这件事情提升上去了。在这个领域里为什么会得到提升，他认为，通过互联网可以拿到大量图象数据，由于最近这些通用计算 GPU 的发展能让以前算不动的神经网络和深度学习网络现在能算得动了，就是两个驱动，一个驱动是数据，一个驱动是 计算力。并没有算法和模型方面革命性的变化，深度学习八十年代就有了，2006 年突然爆发了，主要是由于数据。

再往下发展，AI 发展还有很多理论、技术方面的问题没有解决，这些问题逐一解决有可能推动 AI 的发展。刘译璟补充道：“我们只看近期，很远的事情我们看不到，到底什么时候量子计算机能真的可用，AI 如果要真正用起来产生商业价值一定是在垂直行业里，垂直行业真的没有那么多数据。是不是要好好的把小数据用起来，我认为是这样，好好把小数据用起来会有别的方法，要构建知识体系，这个知识体系是 AI 里非常关键的一个技术领域叫做知识表示，百分点做的用户画像一直是这个。”他还表示，2012 年谷歌的知识图谱越来越得到大家的认可，知识图谱也是这里面的技术，以知识图谱为代表的知识工程会得到更多的关注。

数据对 AI 的发展有着关键的作用，然而一些中小型企业由于本本身资源的局限，无法得到丰富的数据资源，这样的企业如果想向 AI 发展，该如何是好？

刘译璟认为核心原因有时并不是中小企业没有数据资源，更多的是因为在很多应用场景下，根本没有以前的数据资源做参考。

刘译璟举了“阿尔法狗”的例子：阿尔法狗把所有棋谱都学完了，还得不到特别好的训练，它在造数据，它在反复不断快速的造数据。深度学习加上强化学习的算法，能够让机器玩游戏，比如玩超级玛丽，原因是这个环境里很简单的可以不断重复不断的评价，在人类社会上做不了这个，比如现在要感知战场的态势做一个决定，到底怎么排兵布阵，是防守还是进攻，复杂度非常高，怎么可能让机器学会这个？政府决策，要不要开放二胎的政策，历史上没有出现过如何做判断？没有数据可以让它学习，这个才是最重要的，不怕企业没有数据，企业没有数据更多的是没有经过工业 3.0，企业往往是一旦业务运作起来有非常多的数据可以去支撑。他又补充道：就像炒股，需要有一个机器帮你做股票选择，能做到吗？做不到。股票那么多，影响股票的因素那么多，中国股市 1992 年开始所有数据加起来，这事怎么做？这是核心原因。

智能制造这个概念已经被多次提及，把 AI 技术用到传统制造业里，但目前中国制造业距离这个目标有点远，刘译璟认为，工业 4.0 是智能化的概念，根本不能构建一个数据世界，根本不能用数据描述整个生长过程，显然也没有办法通过智能系统对这个生产做出监控、决策。

国内目前的问题很可能是自动化这一步还没有得到很好的跨越，如果自动化这步能得到很好的跨越，有了那样一些数据，在这些数据之上我们很好的描述整个生产过程，产品的、物流的、供应的等等，中国能做出这样一套智能系统，再把人的经验放到里边，能够更好的提升生产的效率。

既然在很多应用场景下缺少数据，AI 如何在这类场景发展呢？刘译璟给出了他的看法：人正常去推理，人的思维方式有归纳和演绎，人可以设定一些条件，基于条件推演出下一步如何推演，可以把推演的过程变成规则给到机器，这是一种启动的方法。

另一种方法，可以把很多业务知识变成数据给到机器，在这些机器上如何做推理和搜索，机器也可以利用这些场景做出自己的判断。

还有一些方法，同样是零售企业，阿里有相当好的模型，是不是能够用到另外一个线下的企业去，这是有可能的，这叫知识的迁移，这都是让缺乏数据的企业、场景能够运用人工智能的手段，人工智能的范围非常广，我在演讲的时候说过几何地理证明，数学地理证明是挑战人类极限的，这是靠推理的方式做出来的。

对目前 AI 发展的态度

现在国外的原创性、标准性 AI 方面的优势比较明显，从目前 AI 的研究文章，译著量明显上升，未来会不会出现国内越来越依赖国外人工智能的算法和硬件？

刘译璟认为，中科院、北大清华有很优秀的实验室，在这里面做得非常好。谷歌要做自然语义的识别、语音的识别，他要依靠中国本地化的数据语言方面的特点，这件事情中国自己会做得更好，这件事情并不是很需要担心。

微软的洪小文一直在强调：AI+HI（注：HI，即 Humanistic Intelligence 人文智能）是终极，刘译璟表示自己也是第一次听说这个概念，但是个人比较倾向于支持他这个观点。

他说：“因为人工智能只有六十年，但是关于人的智能老早就有了，人的思维是怎么样的，人的推理是怎么样的，从毕达哥拉斯学派两千年前就有这样的研究，人工智能确实会更多的和人的知识联系在一起，知识工程、知识图谱就是让人的知识让机器理解。机器归纳出来的道理不能讲给人，这也是一个遗憾，以后有没有一类技术，比如阿尔法狗学完棋谱，自己的技艺得到提升，是不是还能讲给人，这很有可能也是一个很有意思的领域。”

而关于 AI 未来的发展，刘译璟的态度是：一代人只解决一代人的问题，我们可以畅想，畅想也就是一个畅想，从我的角度我不关心这样的问题。但是我可以探讨一下，我自己倾向于洪小文的观点，我觉得人类社会发展会不断找到新的科技、新的资源，七十年代就有人预测人口会爆炸，地球资源都已经不够了，势必有好多人得被淘汰，都没有事情可做，到现在没有出现这样的情况，原因是我们出现了新的技术，能解决吃饭的问题，能解决能源的问题，再过二十年三十年会不会出新类似的技术，我认为比较关键的技术深海的探测，外太空的探测，机器没见过，算法也没给它灌输过数据，那些工作是不是可以做。一旦我们发现深海的资源会不会带来一些新的机会、新的工作，这都说不清楚。至少在我看来我不必要关注那么久远的事。

深度学习的局限性

深度学习是机器学习的一种，机器学习是连接主义的一种方法，还不是所有的方法。刘译璟认为，这种方法能解决的是归纳，这也是它最大的局限，它只能做归纳设计。

在采访中他表示，深度学习作为一种算法来说，从模型层面缺乏反馈，为什么现在会有强化学习，大家也知道阿尔法狗里有强化学习这部分，这是深度学习的局限，现在深度学习要和强化学习去结合。决定深度学习应用范围会比较窄，它真的需要很多数据，如果没有这些数据的话它那几层网络都训练不出来，这是大方面的局限。再往下走，技术方面的局限有很多，归根到底深度学习是一个优化问题，这个优化用什么样的优化方法，随机梯度下降的方法，训练时间非常长，消耗的资源非常多，很难用到现实中很快需要做决策的场景里，有没有一些新的优化的技术，有没有一些新的计算手段像量子力学，可以让这件事情做得更快，这也是它的一个局限性。

还有个本质上的局限性，深度学习机器学习的方法以神经网络，不具备可解释性，不知道它到底归纳出什么东西来，深度学习是一个很好的工具，至少在某些领域里它是很好的工具，但我们如果要去讨论它的局限，相对来说想实现更大范围的人工智能，是不是深度学习包揽天下能实现强人工智能，从这个角度去讲它的局限性，深度学习只是其中很小的一个技术点，离实现人工智能还非常远。

百分点的发展

百分点主要的技术以大数据为主，但是据刘译璟介绍，2009 年起，百分点就开始使用人工智能的技术，不是因为这波浪潮起来才开始谈这个话题，百分点一直在做类似的事。

刘译璟在采访里讲到，大数据的数据处理挖掘分析里，九十年代的 BI 技术，五十年代的 AI 技术，三个是你中有我我中有你，很难分开。百分点目前还是在沿着以前的布局进行深化，一直以来在专注于在做自然语言处理，做知识图谱方面的工作，今天会更加强调自然交互方面，百分点的产品要各方面使用。

他说道：“早上的论坛里我讲到我们发布了一款智能交互分析引擎，BI 是数据分析里非常常见的应用，但你要用 BI 就需要知道指标维度，知道它背后的业务环，知道怎么做操作，好多人连 Excel 的透视图都用不好怎么让他用 BI 呢？现在的这些数据分析技术确实还需要相当多的专业性，业务还是远，我们希望解决的是从非常模糊的语义能到精确的计算机操作过程的转变，我们会在自然交互里投入更大的工夫，核心还是之前那套语义的处理，外面会加上很多交互方面的内容。”

刘译璟认为，在一些领域里数据应该更重要，选哪个算法其实一点关系都没有，当数据大到一定程度以后不同的算法只是计算速度的差别而已，大的方向没有太多的变化。在个别领域里真的拿到那么多数据的领域。而在另外一些领域，只能基于自己的经验，基于一些规则，基于别的领域来的知识进行运算，在这个领域里很可能算法又更加重要，这些算法不像机器学习深度学习那样一个特定的网络，有可能是一整套的规则，最后是一个计算的问题了。

刘译璟谈到，在中期会运用更多的结合现实的场景，不是互联网的这些场景，而是会接触到线下的场景，线下场景更多会体现在交互层面。安防的场景，只解决感知交互的问题；人脸识别，是交互的问题；智能家居解决的是语音交互的场景，这是将来会产生商业价值的一些场景。

要解决自然的交互问题，需要机器不止听得见还要听得懂才行，这里面就会衍生出语义理解的问题，而关于百分点的布局，刘译璟说：“我们会专注在交互领域，自然语言的交互、语音的交互，往下延伸我会大力做自然语言处理，自然语言处理方面也是需要做知识图谱，需要把人的业务知识告诉机器，它才能理解得更好，这是从技术一直到应用的脉络”。

AI 前线微信社群

入群方法

关注 AI 前线公众账号（直接识别下图二维码），点击自动回复中的链接，按照提示进行就可以啦！还可以在公众号主页点击下方菜单“加入社群”获得入群方法~AI 前线，期待你的加入！

活动通知

AI 时代，算法的重要性日渐凸显，对算法与数据结构的掌握程度，也是硅谷名企或者 BAT 等国内一线公司决定人才录用的关键指标。精通算法的技术人员，无论是职业发展还是薪酬等级，都将远远甩开身后那些只会一招半式的程序员。为此斯达克学员联合前 Facebook 早期工程师覃超，推出《算法与数据》系列课程，帮你打通算法与数据机构的任督二脉，在 AI 时代抢占先机。

欢迎扫描二维码联系小助手咨询课程详情，课程介绍请点击阅读原文。

登录查看更多

相关内容

刘译璟

关注 28

刘译璟，北京大学应用数学专业博士。2015年入选北京市“科技新星”。曾参与多个国家自然科学基金项目，包括：对象封装和保护的理论和技术研究、Web服务编排与协作的形式化模型、复杂状态程序和系统的语义模型研究等。作为百分点CTO，带领核心研发团队完成了百分点大数据和人工智能技术体系的搭建以及产品体系的开发，现负责海外国家级政府项目的技术架构和开发。

商业数据分析，39页ppt

专知会员服务

165+阅读 · 2020年6月2日

【WWW2020】知识图谱中的实体摘要:算法、评价和应用，123页ppt

专知会员服务

86+阅读 · 2020年4月25日

工程领域大数据和人工智能原则

专知会员服务

125+阅读 · 2020年3月26日

【新加坡国立大学】深度学习时代数据库：挑战与机会

专知会员服务

35+阅读 · 2020年3月6日