优必选陶大程：未来人和机器的交互将大部分基于摄像机

会员服务 ·

优必选陶大程：未来人和机器的交互将大部分基于摄像机

2017 年 8 月 7 日 极客公园 豆腐店店长

摘要：带你走进机器人大脑，去看看它是如何工作的。。

进入到 2017 年，AI 人工智能迅速掩盖了 VR 虚拟现实的光环，成为当仁不让的主角。从无人驾驶到智能家居，再到教育、医疗，几乎你能想到的行业都在努力想要搭上 AI 这班快速列车。

优必选是一家从事人工智能和机器人研发与开发的创业公司。从 2012 年注册成立优必选科技，到 2016 年完成 B 轮融资，其估计高达 10 亿美元，也被评为全球服务机器人行业唯一的独角兽企业。

对于以优必选为代表的机器人研发企业们而言，这是个最好的时代。大量的资本投入加之人工智能技术的进步，为其提供了比以往任何一个时候都要更好的环境。优必选科技创始人兼 CEO 周剑认为，战略布局 AI 是优必选 2016 年最重要的决定。

「人型机器人」更容易融合到家庭生活中

同时，这又是一个「最坏」的时代。找到一个属于自己的核心至关重要，否则就是浪费资源，优必选将未来押注在了「人形机器人」。

如果你之前看过 2016 年春晚，应该对在广州分会场，540 台机器人组成方阵，为孙楠伴舞那一幕有所印象。是的，那群可爱的机器人就是来自于优必选的 Alpha1S。对于人形机器人的探索，优必持开放态度，其与亚马逊、苹果以及腾讯都建立了合作。

为什么认为「人型机器人」是下一代的人机交互中心？有关这个问题，大致可以从两个角度来看。首先一点，是人形机器人可以带给我们更多的信任感。

说起机器人，你的第一反应是什么？可能是变形金刚也可能是 Star Wars 中的各种机器人形象。这些脑海中的印象告诉我们，对于大多数人而言，希望面对的机器也是人形的，它会带给我们更多的信任感，也更容易融合到我们的家庭生活中。

另外，从设计和实际应用层面上来讲，实际上我们现在看到的轮式机器人更像是过渡期的产物。其实双足的机器人是按照人类的环境所设计的。

拥有双足意味着在做人包括上下楼梯、过街障碍等等这些动作的时候，要比轮式简单的多。既然人类的环境是这么设计的，从长期来讲，人形机器人更加的符合人类环境，不需要专门为机器人再去设定使用环境。

当然，距离我们想象中的机器人，比如变形金刚、Star Wars 中的智能体，就目前来看要想实现还有相当长的一段距离。不过在实验室环境中，我们已经能够看到阿西莫（ASIMO）、大狗（波士顿动力学工程公司设计研发）等等。

让机器人「更像人」，人工智能是关键

智能机器人发展到今天，涉及到多学科的交叉应用。我们期望未来机器人能够像人类一样，能听会说，能看会思。甚至在很多方面能够超越我们，比我们做的更好。

而想要实现以上的这些愿景，关键就是机器人人工智能。围绕机器人的三大属性，运动、感知、认知，去展开研发布局，是现在以及未来大家需要一直去做的事情。

优必选目前在人工智能领域的布局主要是针对视觉和听觉的，通过集成目前比较成熟的视觉传感器和麦克风阵列，能够有效地换取环境信息，形成机器人的感觉系统。

当然，仅仅有感觉系统是不够的，还需要对所获取的信息进行进一步的处理和分析（包括独立感知单元以及多长按器信息融合）。

前不久，计算机视觉领域的全球顶级学术会议，CVPR（IEEE 国际计算机视觉与模式识别会议）在美国夏威夷落下了帷幕。在今年的 CVPR 大会上，除了谷歌、微软、Facebook、亚马逊、苹果等科技巨头有论文被接收，优必选 Sydney AI Centre 有两篇论文入选，这也从另外一个角度反映出，其在机器人视觉领域的探索，获得了更高舞台的肯定。

关于视觉，这四项内容值得关注

视觉方面，优必选人工智能首席科学家陶大程教授认为主要有四个部分的内容：图像处理、机器视觉、深度学习、统计学习。

有关图像处理，优必选关注的事情是 Deblur（去除模糊）、Denoise（降噪）、Dehaze（除霾）、Super Resolution（超分辨率）。

由于机器人是一个运动的平台，这就意味着它所获取的图像、视频不可避免的出现抖动，这对于后期识别和处理非常不利，如何对相对模糊的信息进行有效的调整，显得尤为重要。而当传感器在低兆度的时候，一定会受到噪声的干扰，从而去影响机器人的行为活动。

超分辨率更多的是为了解决，当机器人摄像机获取到低分辨率的图像或者视频，如何有效提升这些数据的解析度。高清晰的图像、视频对于后期的识别任务至关重要。

机器视觉领域优必选所关心的部分主要跟人脸相关。包括人脸检测、特征点检测、人脸识别、人脸增强等技术环节。另外，机器人在家庭的使用环境中，需要面临诸如运动等等诸多问题，这些都离不开对场景的解析、物体检测、单（多）目标跟踪、基于单摄像机的深度估计、精细化物体分类，等等。

毋庸置疑，深度学习是当今时代的主流，对于实现人工智能起到了不可磨灭的作用。这部分，除了目前比较流行的各种各样的特征提取框架，诸如 resnet、inception、优必选同样关心 multi-scale network。

但深度模型面临的问题是越来越大，如何有效地把这个模型进行压缩。优必选将过去基于传统的信号处理的方式，比如说离散余弦变换、低质稀疏分解，有效的引进到了深度学习模型压缩的过程中，并且取得了非常不错的效果。

在进行压缩的时候，能够有效地压缩模型的体量，而由于压缩了之后，又可以有效提升模型的运行速度，而且模型的精度不会受到影响。

现在大家都在做深度学习了，为什么优必选还需要关心统计学习？其实目前的深度学习和统计学习有着很强的关系，比如，多传感器信息融合（或者说是 multiview learning，多视角学习）。我们的机器人是携带着多种传感器的，有获取视觉数据的摄像机，有获取听觉数据的麦克风阵列。那么如何有效的把这些不同源、不同表达方式的信息有效的整合起来？这对于后续的识别问题有着非常重要的作用。在之前谈到的物体检测、跟踪、人体姿态估计等应用中，多视角学习都起到了至关重要的作用。

另外，统计学习中有一个很重要的研究方向：causal inference（因果推理），对于实现机器人人工智能有着不可或缺的作用。

在人工智能方向，优必选的一些进展

物体检测，对于机器人来说是非常关键的一步。机器人走进一个场景中，它需要知道这个场景里都有什么。优必选采用了 Dense-ScaleProposal network，对于每一个proposal，同时提取多种深度特征，利用刚才提到的多视角学习，对不同的特征进行整合，以达到精准分类的目的。

进入到一个场景中，对于机器人而言另外一个比较重要的是它需要知道当前场景中哪个地方是什么。比如室内场景中，它需要知道我们的床在什么地方。机器人在运动的过程中，它实际上要对场景进行完整的解析。在解析的过程中，就是一个图像分割、场景解析的过程。

就场景分割而言，实际上这是一个多分辨率的过程。比如，以往传统抠图的过程大概是从大致轮廓，逐渐进入细节。对于一些很特殊的细节来说，我们要把这个图放得很大很大，这样我们才能够有效把这个图像分割出来。

而对于机器来讲，过程也应该是相似的，我们设计了一个深度神经网络，模拟了人在抠图的过程，把不同尺度的信息整合起来，达到精确场景解析的目的。

世界上有超过 1400 种狗，有超过 9000 种鸟。让非专业人士去精确的认出每一种狗、每一种鸟，是非常不容的。但是机器却有这样的可能。这就是精细化物体识别。针对这一问题，优必选设计了一个特征点检测的网络，能够在不同的特征点上提取有效的特征，然后把所有的特征整合到一起，就能够知道这是苏格兰牧羊犬，还是西班牙猎犬。

有关人机交互这个问题，现在交互的方式实际上主要是写一段程序，然后设定参数，再把这些传给机器人，然后机器人才能够完成我们需要它做的事情。这个过程很显然是不自然的。

优必选认为，未来人和机器人的交互大部分都是基于摄像机的。机器通过视觉信息的获取，去学习人的行为，从而下一次它就能够按照我们的需要去完成我们教授它的动作，并且完成需要完成的任务。

以上就是优必选在人工智能领域的一些初步的结果。 ■

本文由极客公园原创

转载联系 wangxue@geekpark.net

登录查看更多

相关内容

陶大程

关注 0

陶大程，澳大利亚科学院院士、新南威尔士皇家学院院士、京东探索研究院院长、ACM/AAAS/IEEE Fellow、欧洲科学院外籍院士、京东集团高级副总裁、悉尼大学数字科学研究所顾问兼首席科学家。连续7年入选科睿唯安“全球高被引科学家”；在 Guide2Research.com 评选的“计算机科学与电子学”类H指数最佳科学家排行榜上，世界排名第53。荣获IEEE Computer Society Edward J McCluskey技术成就奖、IEEE ICDM研究贡献奖、悉尼科技大学校长奖章和校长杰出研究贡献奖，两度荣获澳大利亚尤里卡奖，被《澳大利亚人报》列入“终身成就排行榜”。

基于FPGA的机器学习硬件加速研究进展

专知会员服务

81+阅读 · 2020年6月20日

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

122+阅读 · 2020年5月18日

《强化学习》简介小册，24页pdf

专知会员服务

277+阅读 · 2020年4月19日