【学科发展报告】智能感知与自主控制

2018 年 11 月 1 日 中国自动化学会

一、引言

智能感知和自主控制涉及模式识别,计算机视觉,控制科学等领域的关键问题,一直是人工智能研究的热点。一般认为,人工智能发展会经历三个阶段:计算智能、感知智能、认知智能。智能感知与自主控制是一种无须或仅需极少的人为干预,就能独立地感知环境并完成对目标的自动控制的技术。从 20 世纪中叶开始,人类对构建具有智能化的感知与控制系统寄予了极大的期望。智能本身是一个涉及面很广的问题,即便对于人工智能也是如此。对于生物体而言,其最基本的能力首先是感知和与环境交互的能力,这是生存与探索世界的基础。因此对一些低等生物而言,首先发展的是感知和与外界互动的能力,之后的高等动物才逐步发展出更为复杂的能力,如语言、分析、推理等。一定程度上,人类对于感知和控制的探索似乎与生物进化有着相反的趋势,人工智能已经能够在一些高级的智力游戏方面取得成功,如在国际象棋中深蓝战胜 Garry Kasparov[1]、在有限域问答 Watson 战胜 Ken Jennings 和 Brad Rutter[2],以及在围棋上 AlphaGo 战胜李世石等, 但是人工智能在基本的探索环境、感知环境和与环境交互等方面却远远落后。经过近半个世纪的探索,人工智能在某几个方面的感知能力已经取得了巨大的进步,典型的如 BostonDynamics 的 BigDog3],但挑战依旧巨大。如何有效地将感知和控制结合起来,实现复杂系统在自然环境中进行有效控制是,我们研究的核心问题。

二、研究现状和主要成果

近年来对于智能传感与自主控制集的研究存在两种不同的思路。一方面是结合现有的传感器完成对不同模态感知数据的融合,克服作用距离、感知特性等方面的差异,融合多种感知手段可以显著地提升主体对外界的感知能力。由于多种感知手段所提供的信息有时不仅是不相关的甚至是抵触的,故而对多模态信息需要提供融合和决策支持,这与以往单一感知有着重要的差别;另一种思路是探索具有仿生和类脑性质的新型传感器,这些传感器伴随着研究人员对生物形态的不断探索有了新的思路。我们将从融合多种传感器的多模态感知和新型类脑感知两个方面展开分析和介绍。

(一)多模态智能感知

由于元器件和传感器的发展,人工智能获取信息的能力显著提升,特别是在最近10 年,多种信息获取技术被设计应用,包括光场成像、各种深度成像、可见光与红外成像、雷达成像等。这些能力为智能感知提供了强有力的原始信息获取手段,使得计算机的感知能力在很多方面甚至超过人类的感知能力。与此同时,在感知外界的模型上,一些学者提出了包括主动视觉[4,5]、定性视觉等方法[6]试图解决这些问题。在感知外界理解对象的 识别方面,近五年取得了长足的进步,特别是在感知交通场景中人和车辆为主的场景理解上能够满足一些特定应用的需求。

由于不同模态感知手段在作用距离、感知特性等方面的差异,融合多种感知手段可以显著地提升主体对外界的感知能力。近年来一些典型的融合方法,如融合深度与可见光传感器,包括激光雷达 + 可见光相机,超声波测距 + 可见光相机等是研究重点。由于多种感知手段所提供的信息有时不仅是不相关的甚至是抵触的,故而对多模态信息需要提供融合和决策支持,这与以往单一感知有着重要的差别。

1. 室外场景感知

室外环境得到最多的两方面应用是无人驾驶车辆和无人机。这两种平台集合了多种传感器对场景进行感知建模。这类建模一般依赖于包括激光测距仪、全景相机、GPS、惯导、双目摄像机等多种传感器集成的获取装置。这类装置可以是车载机载甚至是背负式的。尽管这种环境下可以完成对空间场景的建模[7,8]。但这类建模往往是与后续的应用相分离的,不能支持现场的建模应用,因而其应用范围仍然是有限的。

2. 室内场景感知

通过融合多传感器 , 已经能够实现较为精确的对象建模 , 典型的如 Leap Motion[9,10],RealSense[11]和 Kinect[12]等传感器。通过融合多种感知源并在时空上对齐所获取的不同信息实现有效的高精度三维建模。Leap Motion 可以在 60cm×60cm×60cm 的空间内对十个手指达到 1mm 的定位精度,这为人机交互提供了可靠的交互手段。利用以 Kinect 为代表的消费级深度传感器,我们可以方便地实现对小范围室内场景的实时建模[13,14]。虽然由于成本限制,现阶段的深度传感器的采集范围和精度都很有限,但这些相关技术的发展为虚拟现实、增强现实等后续应用提供了有力的支持。

(二)类脑感知

真实世界需要考虑的是多粒度的建模。高等生物的视觉系统几乎都是非均匀的 , 这种非均匀性同时表现在感知空间精度和对刺激的响应上。以人类视觉系统为例,在人眼中有600 万 ~700 万个视锥细胞、9000 万个视杆细胞,如果只按照中央凹的密度考虑,人眼在水平 120 度,垂直 60 度的范围内大约相当于 6 亿左右的像素。可另一方面,同时具有精细观察能力的等价像素只是中央凹部分的 600 万 ~700 万像素,视杆细胞所产生的边缘视觉分辨率则极低。正是这种机制加上注意选择,保证了生物视觉系统能够在精度、反应速度、视野之间做到很好的平衡。

建立在仿生和类脑机制下的感知系统成为今年来的研究热点。采用新型以往图像 /视频的采集、记录是以服务人类视觉系统的再观察为首要目标的,因此均匀采样、线性量化都是与这一目标相符的。但对感知目的而言,就必须兼顾分辨率、视野和传输以及处理能力,针对非均匀采样和非线性量化获取信号就需要探索新的感知与处理方法。在这些方面,如仿枝节动物眼睛成像[15]、Catadioptric成像[16]、双目仿生眼[17]、非线性量化[18]等。下面我们介绍几种基于类脑感知的新型传感器。

1. 动态视觉感知

动态视觉感知系统主要捕捉相机视野内的运动信息,是仿生视觉感知中重要的一环。传统基于帧的图像获取方法存在一些问题,如帧率限制,信息冗余,带宽限制,有限的动态范围等。而生物视觉的特性为基于事件的稀疏表示,因此在类脑感知系统中,动态视觉信息采用事件流信号的编码方法,如 Rate coding(用神经元的发放率来表示刺激的信息)和Spike count coding(用一个时间段内的脉冲数量来表示刺激的信息)等,可以极大地提高数据传输和处理的速度。目前常见的动态视觉感知芯片主要是  DVS[19-21],其是一种硅视网膜器件,采用生物视网膜模型中的双极性细胞和运动感知功能,通过时间差分, 测量每个像素的亮度变化,输出采用事件序列,极大地降低了数据传输量,具有高时间分辨率和大动态范围。它们的主要优势是在提供描述场景变化的像素输出同时丢弃所有的冗余信息,从而提高时间分辨率。基于事件的传感器的直接应用领域是目标跟踪[22,23],但 也可能以无帧形式解决一些经典的计算机视觉问题。基于事件的传感器已经用于立体视觉[24,25]和光流[26,27],角点检测[28],轨迹分析[29]等,其成本大约是基于传统帧方法的 二十五分之一。

2. 角度感知

Chen 等人设计出角度敏感像素传感器[30],简称 ASP 传感器。ASP 传感器可以通过光学元件直接计算出深度学习中卷积神经网络的第一层,并用于视觉感知任务。尤为特别的是,大多数 CNN 结构包含定向的边缘滤波器,色斑和颜色边缘。这些边缘滤波器也出现在人类视觉系统的 V1 层中单细胞的感受野中。这与 Olhausen 和 Field[31]用 Gabor 小波将这些滤波器特征化,并展示出其在自然图像下的统计性能相符。

3. 光流和焦点流感知

光流技术已被广泛了解和应用。一种基于光流扩展出的焦点流的方法不同于传统的被动式深度感知技术(如立体视觉,散焦测距),可以同时测量三维物体的运动速度和深度信息。并且其不需要使用视差和模糊等大量计算,所拍摄的物体在相机上所成的图像随物体与相机距离的变化而产生不同程度的散焦模糊。而深度和三维速度可以通过逐像素的,和光流类似的线性约束解出。[32,33]建立的线性约束仅使用相对少量的乘法和加法运算。基于焦点流原理的传感器会相当实用,比如在需要运动视觉感知的低能耗的微型机器人上。

4. 触觉感知

传统上要产生微米级影像,必须使用大型且昂贵的设备,如共聚焦显微镜或白光干涉仪,而且要产生一幅 3D 影像可能要耗时数分钟到数小时之久。这类设备通常必须安装在可隔离振动的桌子上,可能必须使用到花岗岩材质的桌面和减震器。麻省理工学院的研究人员开发出了一种简单、可携带的仿生触觉成像系统 GelSight[34,35],该系统结合了透明板、合成橡胶、具有微小金属斑点的外漆层,以及更巧妙的算法,可实现过去仅能透过有大型和昂贵实验室设备来实现的 3D 成像。GelSight 是从一项建构机器人触觉传感器的项目中衍生而出。在改进系统材质后可提供的分辨率,甚至比触觉感测所需的更高。

三、国内外发展比较与趋势

将智能感知和自主控制作为一个专题进行讨论,很大一部分程度得益于人工智能领域所推崇的感知与控制作为无人参与的整体进行讨论研究。纵观国内外发展的现况,国内在控制领域已经取得了一定成就,包括自动驾驶、智能机器人等都取得了巨大进步。但是在智能感知领域,我们的工业水平和研究水平整体偏弱。我们缺乏高精度的仪器设备器件, 如传统的高精度激光传感器,基于 RGB-D 数据融合的消费级设备,或是上文所讨论的新型感知设备,都出自于国外先进公司和实验室。这受制于国内工业体系不够完整或者高精成像技术不够完善,还需要一定时间的技术积累。近年来,基于深度学习的模式识别方法在语音识别、图像分类和行为识别等领域取得了巨大的成功,取得的识别精度比其他方法所取得的最高性能都有明显提高。其成功的主要原因是多层次结构能自动学习表示性和判别性优良的特征。同时深度学习也为新型智能传感发展趋势提供了更多的思路。

1. 新型成像模型

传统以透视投影模型为基础的成像系统都是基于均匀采样的,非均匀成像意味着需要有相应的成像模型。同时要考虑从中央到边缘的均匀过渡和物体在不同区域表达的连续性与不变性。这更加符合生物感知系统的工作原理。

2. 非均匀的特征获取理论与方法

以往的均匀量化成像虽然给显示带来了很大的方便,但在特征表达方面,其实并非是最为有效的方式。一个典型的例子就是边缘获取往往是基于差分的,同样的边缘结构,在照度改变之后差分的结果会有很大差别。因此 , 均匀量化对于很多特征提取方法而言并非是最适合的数字化方法,探索新的非均匀量化方法,如对数量化等,这不仅有利于提升感光范围,而且可以有效支持稳定特征的获取。

3. 分辨率依赖的控制与任务调度

对于非均匀采样的系统,如同人类中央视觉和边缘视觉的分工一样,需要有相应的任务分工;同时为了保证系统能够持续处理某一类任务,如跟踪,需要能够对采集进行连续的主动控制,这可以体现出主动视觉的优点,同时大大降低后续处理的代价。

4. 前端计算能力

GPU的应用对于推动后来以深度学习为主导的应用起到了关键的作用。要满足处理真实世界感知与交互这一任务。今天的计算装置在处理能力与功耗上仍然面临巨大挑战,一个例子是即使是对阵欧洲冠军Fan Hui 时,AlphaGo使用了48 个 CPU 和 8 个 GPU。而处理真实环境的感知与交互需要保证计算装置的体积和功耗与笔记本计算机相当甚至更小 , 因此至少需要将现有的计算能力提升千倍以上,同时功耗需要降低为现在同等处理能力的千分之一。

5. 感知与控制系统的交互作用

不论是在以往的感知还是交互系统中,都是相对独立的。一旦通过主体相关联,感知与控制之间的相互作用将是一个非常重要的问题,这其中的两个关键是实时性(从感知到控制)和感知与响应的环路集成。前者在如飞行驾驶中的自动着陆等具有高速行为的应用中尤为重要,后者对如救灾机器人施救力量的控制等则是决定性的。

四、需求与展望

智能感知与自主控制是人工智能必不可少的能力,保证了系统与外部世界的连接,同时是智能机器获取外界知识的重要手段。以往关于感知与交互的研究与作为一大类感知与交互系统的实体如机器人的研究常常是脱节的,因而感知系统的能力(如主动感知)往往受到缺乏实体支撑的限制,同时也制约了机器人等的发展。过去 20 年感知与交互系统在解决限定领域的问题上取得了重要的进展,但和人工智能的其他领域类似,今后需要重点突破的是处理开放域的问题,使得未来的智能系统不仅仅是限定域问题的“专家”,同时也是能够应对开放域问题的具有学习能力的“常人”。

2017 年以来国家加大了对智能感知的研究投入。比如,国务院 2017 年七月启动《新一代人工智能发展规划》, 科技部于 2017 年启动了《国家重点研发计划智能机器人》等重点专项。这两个项目的核心研究内容之一就是发展具有新型智能感知能力的智能机器人,为国家公共安全重大需求提供技术支撑。另外,国内研究的硬件设施条件接近甚至部分超过国际主流研究机构的条件,国内学者参加国际交流机会日益增加,在国际学术界的显示度也越来越大。但是,在基础理论研究方面,在国际上所产生的重大的原始的创新性成果还不多。

参考文献

[1] Silver D,Huang A,Maddison C J,et al. Mastering the game of Go with deep neural networks and tree search.

Nature,2016,529:484-489.

[2] Roberts L. Machine perception of three-dimensional solids. In:Optical and Electron-optical Information Processing.

Cambridge:MIT Press,1965. 159-197.

[3] Marr D. Vision:A computational investigation into the human representation and processing of visual information, Cambridge:MIT Press,2010.

[4] Ammirato P,Poirson P,Park E,et al. A Dataset for Developing and Benchmarking Active Vision,ICRA. 2017.

[5] Ognibene D,Baldassare G. Ecological Active Vision:Four Bioinspired Principles to Integrate Bottom-Up and Adaptive Top-Down Attention Tested with a Simple Camera-Arm Robot. IEEE Transactions on Autonomous Mental Development,2015,7(1):3-25.

[6] Jain R C,Binford T O. Ignorance,myopia,and naivet’e in computer vision systems. CVGIP:Image Und,1991, 53:112-117.

[7] Chen J,Chen B. Architectural modeling from sparsely scanned range data. Int. J. Comput. Vision,2007,78:223- 236.

[8] Lin H,Gao J,Zhou Y,et al. Semantic decomposition and reconstruction of residential scenes from LiDAR data.ACM Trans. Graphics,2013,32:1-10.

[9] Weichert F,Bachmann D,Rudak B,et al. Analysis of the Accuracy and Robustness of the Leap Motion Controller[J]. Sensors,2013,13(5):6380-6393.

[10] Marin G,Dominio F,Zanuttigh P. Hand gesture recognition with leap motion and kinect devices,IEEE International Conference on Image Processing. IEEE,2015:1565-1569.

[11] Draelos M,Qiu Q,Bronstein A,et al. Intel realsense = Real low cost gaze,IEEE International Conference on Image Processing. IEEE,2015:2520-2524.

[12] Zhang Z. Microsoft Kinect sensor and its e □ ect. IEEE Multimed.,2012,19:4-10.

[13] Newcombe R A,Izadi S,Hilliges O,et al. Kinect Fusion:real-time dense surface mapping and tracking. In: Proceedings of the 10th IEEE International Symposium on Mixed and Augmented Reality,Basel,2011. 127-136.

[14] Henry P,Krainin M,Herbst E,et al. RGB-D mapping:using depth cameras for dense 3D modeling of indoor environments. In:Proceedings of the International Symposium on Experimental Robotics,New Delhi and Agra, 2010. 22-25.

[15] Song Y M,Xie Y,Malyarchuk Y,et al. Digital cameras with designs inspired by the arthropod eye. Nature, 2013,497:95-99.

[16] Yokoya R,Nayar S K. Extended depth of field catadioptric imaging using focal sweep. In:Proceedings of the 15th IEEE International Conference on Computer Vision,Santiago,2015:3505-3513.

[17] Jiamao Li and Xiaolin Zhang. The Performance Evaluation of a Novel Methodology of Fixational Eye Movements Detection International Journal of Bioscience Biochemistry & Bioinformatics,2013,3(3):262-266.

[18] Nayar S,Mitsunaga T. High dynamic range imaging:spatially varying pixel exposures. In:Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,Hilton Head,2000. 472-479.

[19] Lichtsteiner P,Posch C,Delbruck T. A 128128 120dB 15s Latency Asynchronous Temporal Contrast Vision Sensor,IEEE Journal of Solid-State Circuits,2008,43(2):566-576.

[20] D. Tedaldi,G. Gallego,E. Mueggler,D. Scaramuzza Feature Detection and Tracking with the Dynamic and Active-pixel Vision Sensor(DAVIS),International Conference on Event-Based Control,Communication and Signal Processing(EBCCSP),Krakow,2016.

[21] E. Mueggler,C. Forster,N. Baumli,G. Gallego,D. Scaramuzza,Lifetime Estimation of Events from Dynamic Vision Sensors,IEEE International Conference on Robotics and Automation(ICRA),Seattle,2015.

[22] Z. Ni,C. Pacoret,R. Benosman,S. Ieng,and S. Régnier. Asynchronous eventbased high speed vision for microparticle tracking. Journal of Microscopy,245(3):236-244,Nov. 2011.

[23] Kim H,Leutenegger S,Davison A J. Real-Time 3D Reconstruction and 6-DoF Tracking with an Event Camera, European Conference on Computer Vision. Springer International Publishing,2016:349-364.

[24] P. Rogister,R. Benosman,and S. H. Ieng. Asynchronous event-based binocular stereo matching. IEEE Transactions in Neural Networks and Learning Systems,pages 347-353,2012.

[25] Rebecq H,Gallego G,Scaramuzza D. EMVS:Event-based Multi-View Stereo,British Machine Vision Conference. 2016.

[26] S. Tschechne,R. Sailer,and H. Neumann. Bio-inspired optic flow from event-based neuromorphic sensor input.

Artificial Neural Networks in Pattern Recognition,8774:171-182,2014.

[27] R. Benosman,S.-H. Ieng,C. Clercq,C. Bartolozzi,and M. Srinivasan. Asynchronous frameless event-based optical flow. Neural Networks,27:32-37,2011.

[28] B. Kueng,E. Mueggler,G. Gallego,D. Scaramuzza,Low-Latency Visual Odometry using Event-based Feature Tracks,IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS),Daejeon,2016.

[29] Mueggler E,Gallego G,Rebecq H,et al. Continuous-Time Visual-Inertial Trajectory Estimation with Event Cameras,arXiv:1702.07389,2017.

[30] Chen H G,Jayasuriya S,Yang J,et al. ASP Vision:Optically Computing the First Layer of Convolutional Neural Networks Using Angle Sensitive Pixels,IEEE Computer Vision and Pattern Recognition,2016:903-912.

[31] B. A. Olshausen and D. J. Field. Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature,381(6583):607-609,1996.

[32] Alexander E,Guo Q,Koppal S,et al. Focal Flow:Measuring Distance and Velocity with Defocus and Differential Motion. European Conference on Computer Vision. Springer International Publishing,2016:667-682.

[33] Qi Guo,Emma Alexander,and Todd Zickler,Focal Track:Depth and Accommodation with Oscillating Lens Deformation,ICCV,2017

[34] M. Johnson and E. Adelson,“Retrographic sensing for the measurement of surface texture and shape,”in Computer Vision and Pattern Recognition,IEEE Conference on CVPR,2009:1070-1077.

[35] Wenzhen Yuan,Rui Li,Mandayam A. Srinivasan and Edward H. Adelson,Measurement of Shear and Slip with a GelSight Tactile Sensor,2015 IEEE International Conference onRobotics and Automation,2015:304-311.

来源:中国自动化学会

往期文章推荐

人工智能名人堂第49期 | 斯坦福研究院名人堂成员:Peter E. Ha

🔗【重要通知】中国自动化学会关于开展“2018-2020青年人才托举工程项目”推荐工作的通知

🔗【重要通知】关于举办2018中国智能车大会暨国家智能车发展论坛的通知

🔗【问卷调查】关于开展全国学会分支机构基本情况问卷调查的通知

🔗【学会新闻】第三届中国橡胶轮胎产业发展高端学术论坛暨自动化技术培训班 (轮胎智能制造技术与装备专题)成功举办

🔗【CAC2018】2018中国自动化大会论文及注册相关问题答复(Q&A)

🔗【学科发展报告】网络信息服务

🔗【CAC 2018】2018年中国自动化大会“智能自动化新技术” 展览邀请函

🔗【重要通知】关于推荐中国自动化学会科普教育基地的通知

🔗【CAA智库】吴澄院士:自动化技术推动智能制造加速发展

🔗【会员服务】中国自动化学会会员:现可免费申请IEEE Xplore数据库及InnovationQ Plus专利检索分析工具试用!

登录查看更多
6

相关内容

人机对抗智能技术
专知会员服务
209+阅读 · 2020年5月3日
2019中国硬科技发展白皮书 193页
专知会员服务
85+阅读 · 2019年12月13日
2019年人工智能行业现状与发展趋势报告,52页ppt
专知会员服务
124+阅读 · 2019年10月10日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
人工智能在教育领域的应用探析
MOOC
13+阅读 · 2019年3月16日
【学科发展报告】无人船
中国自动化学会
28+阅读 · 2019年1月8日
【学科发展报告】计算机视觉
中国自动化学会
42+阅读 · 2018年10月12日
【CAA智库】高文院士:转向跨媒体智能
中国自动化学会
22+阅读 · 2018年8月20日
2018年中国人工智能行业研究报告
艾瑞咨询
3+阅读 · 2018年4月2日
【无人机】无人机的自主与智能控制
产业智能官
50+阅读 · 2017年11月27日
李克强:智能车辆运动控制研究综述
厚势
21+阅读 · 2017年10月17日
2017中国多媒体大会-智能媒体 创新未来
中国计算机学会
3+阅读 · 2017年8月21日
Arxiv
25+阅读 · 2019年11月24日
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
A Comprehensive Survey on Graph Neural Networks
Arxiv
13+阅读 · 2019年3月10日
Arxiv
136+阅读 · 2018年10月8日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Arxiv
5+阅读 · 2018年5月1日
VIP会员
相关资讯
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
人工智能在教育领域的应用探析
MOOC
13+阅读 · 2019年3月16日
【学科发展报告】无人船
中国自动化学会
28+阅读 · 2019年1月8日
【学科发展报告】计算机视觉
中国自动化学会
42+阅读 · 2018年10月12日
【CAA智库】高文院士:转向跨媒体智能
中国自动化学会
22+阅读 · 2018年8月20日
2018年中国人工智能行业研究报告
艾瑞咨询
3+阅读 · 2018年4月2日
【无人机】无人机的自主与智能控制
产业智能官
50+阅读 · 2017年11月27日
李克强:智能车辆运动控制研究综述
厚势
21+阅读 · 2017年10月17日
2017中国多媒体大会-智能媒体 创新未来
中国计算机学会
3+阅读 · 2017年8月21日
相关论文
Arxiv
25+阅读 · 2019年11月24日
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
A Comprehensive Survey on Graph Neural Networks
Arxiv
13+阅读 · 2019年3月10日
Arxiv
136+阅读 · 2018年10月8日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Arxiv
5+阅读 · 2018年5月1日
Top
微信扫码咨询专知VIP会员