计算机视觉简介:历史、现状和发展趋势

2017 年 11 月 20 日 专知 胡占义
计算机视觉简介:历史、现状和发展趋势

点击上方“专知”关注获取专业AI知识!

来源:中国科学院自动化所机器视觉课题组

【导读】本文由中国科学院自动化研究所模式识别国家重点实验室胡占义研究员撰写,对计算机视觉40多年的发展历程进行了简要总结,包括:马尔计算视觉理论,主动视觉与目的视觉,多视几何与摄像机自标定,以及基于学习的视觉。在此基础上,对计算机视觉的未来发展趋势给出了一些展望。


1.1 什么是计算机视觉

正像其它学科一样,一个大量人员研究了多年的学科,却很难给出一个严格的定义,模式识别如此,目前火热的人工智能如此,计算机视觉亦如此。与计算机视觉密切相关的概念有视觉感知(visual perception),视觉认知(visual cognition),图像和视频理解( image and video understanding). 这些概念有一些共性之处,也有本质不同。从广义上说,计算机视觉就是“赋予机器自然视觉能力”的学科。自然视觉能力,就是指生物视觉系统体现的视觉能力。一则生物自然视觉无法严格定义,在加上这种广义视觉定义又“包罗万象”,同时也不太符合40多年来计算机视觉的研究状况,所以这种“广义计算机视觉定义”,虽无可挑剔,但也缺乏实质性内容,不过是一种“循环式游戏定义”而已。实际上,计算机视觉本质上就是研究视觉感知问题。视觉感知,根据维科百基(Wikipedia)的定义, 是指对“环境表达和理解中,对视觉信息的组织、识别和解释的过程”。根据这种定义,计算机视觉的目标是对环境的表达和理解,核心问题是研究如何对输入的图像信息进行组织,对物体和场景进行识别,进而对图像内容给予解释。

计算机视觉与人工智能有密切联系,但也有本质的不同。人工智能更强调推理和决策,但至少计算机视觉目前还主要停留在图像信息表达和物体识别阶段。“物体识别和场景理解”也涉及从图像特征的推理与决策,但与人工智能的推理和决策有本质区别。应该没有一个严肃的计算机视觉研究人员会认为AlphaGo, AlphaZero 是计算机视觉,但都会认为它们是典型的人工智能内容。

简言之,计算机视觉是以图像(视频)为输入,以对环境的表达(representation)和理解为目标,研究图像信息组织、物体和场景识别、进而对事件给予解释的学科。从目前的研究现状看,目前还主要聚焦在图像信息的组织和识别阶段,对事件解释还鲜有涉及,至少还处于非常初级的阶段。

这里需要强调的是,每个人由于背景不同,偏好不同,知识面不同,对同一问题的观点亦会不同,甚至出现大相径庭的局面。上面为笔者对计算机视觉的理解,也许是片面或错误的。如不少人认为“纹理分析”是计算机视觉的一个重要研究方向,笔者不敢苟同。另外,很多场合,人们把“图像处理”也认为是“计算机视觉”,这也是不恰当的。图像处理是一门独立的学科,图像处理研究图像去噪、图像增强等内容,输入为图像,输出也是图像。计算机视觉利用图像处理技术进行图像预处理,但图像处理本身构不成计算机视觉的核心内容。

这里顺便说一下,目前很多人对“感知”和“认知”不加区分,给读者带来不必要的困惑和误解。在不少场合下,经常会见到有些“视觉专家”把“认知”和“推理与决策”(reasoning and decision)作为平行概念使用,这事实上是不太严谨的。根据“维基百科”,“认知”是指通过感觉(senses)、经历 (experience)和思考(thoughts)来获取知识(knowledge)和进行理解(understanding)的思维过程(mental process)。认知包括:知识形成(knowledge),注视(attention),记忆(memory),推理(reasoning),问题求解(problem solving)、决策( decision making)以及语言生成(language production)等。所以,“感知”与“认知”有区别,推理和决策是典型的认知过程,是认知的重要组成部分,它们之间是包含关系,不是平行关系。


1.2  计算机视觉发展的四个主要阶段

尽管人们对计算机视觉这门学科的起始时间和发展历史有不同的看法,但应该说, 1982年马尔( David Marr )《视觉》(Marr, 1982)一书的问世,标志着计算机视觉成为了一门独立学科。计算机视觉的研究内容,大体可以分为物体视觉(object vision)和空间视觉(spatial vision)二大部分. 物体视觉在于对物体进行精细分类和鉴别,而空间视觉在于确定物体的位置和形状,为“动作(action)” 服务。正像著名的认知心理学家J.J. Gibson 所言,视觉的主要功能在于“适应外界环境,控制自身运动”。 适应外界环境和控制自身运动,是生物生存的需求,这些功能的实现需要靠物体视觉和空间视觉协调完成。

计算机视觉40多年的发展中,尽管人们提出了大量的理论和方法,但总体上说,计算机视觉经历了4个主要历程。即: 马尔计算视觉、主动和目的视觉、多视几何与分层三维重建和基于学习的视觉。下面将对这4项主要内容进行简要介绍。


1.2.1 马尔计算视觉(Computational Vision)

现在很多计算机视觉的研究人员,恐怕对“马尔计算视觉”根本不了解,这不能不说是一件非常遗憾的事。目前,在计算机上调“深度网络”来提高物体识别的精度似乎就等于从事“视觉研究”。事实上,马尔的计算视觉的提出,不论在理论上还是研究视觉的方法论上,均具有划时代的意义。

马尔的计算视觉分为三个层次: 计算理论、表达和算法以及算法实现。由于马尔认为算法实现并不影响算法的功能和效果,所以,马尔计算视觉理论主要讨论“计算理论”和“表达与算法”二部分内容。马尔认为,大脑的神经计算和计算机的数值计算没有本质区别,所以马尔没有对“算法实现”进行任何探讨。从现在神经科学的进展看,“神经计算”与数值计算在有些情况下会产生本质区别,如目前兴起的神经形态计算( Neuromorphological computing),但总体上说,“数值计算”可以“模拟神经计算”。至少从现在看,“算法的不同实现途径”,并不影响马尔计算视觉理论的本质属性。

1)计算理论(Computational Theory)

计算理论需要明确视觉目的, 或视觉的主要功能是什么。上世纪70年代,人们对大脑的认识还非常粗浅,目前普遍使用的非创伤型成像手段,如功能核磁共振(FMRI)等,还没有普及。所以,人们主要靠病理学和心理学结果来推断生理功能。即使目前,人们对“视觉的主要功能”到底是什么,也仍然没有定论。如最近几年,MIT的 DiCarlo等人提出了所谓的“目标驱动的感知信息建模”方法(Yamins &DiCarlo et al. 2016a)。他们猜测,猴子IT区(IT: interiortemporal cortex, 物体识别区)的神经元对物体的响应(neuronal responses)“可以通过层次化的卷积神经网络”(HCNN: Hierarchical Convolutional Neural Networks )来建模。他们认为,只要对HCNN在图像物体分类任务下进行训练,则训练好的HCNN 可以很好定量预测IT 区神经元的响应(Yamins et al. 2014, 2016b)。由于仅仅“控制图像分类性能”对IT神经元响应(群体神经元对某一输入图像物体的响应,就是神经元对该物体的表达或编码)进行定量预测,所以他们将这种框架称之为“目标驱动的框架”。目标驱动的框架提供了一种新的比较通用的建模群体神经元编码的途径,但也存在很大的不足。能否真正像作者所言的那样,仅仅靠“训练图像分类的HCNN”就可以定量预测神经元对图像物体的响应,仍是一个有待进一步深入研究的课题。

马尔认为视觉不管有多少功能,主要功能在于“从视网膜成像的二维图像来恢复空间物体的可见三维表面形状”,称之为“三维重建”(3D reconstruction)。而且,马尔认为,这种重建过程不是天生就有的,而是可以通过计算完成的。J.J. Gibson 等心理学家,包括格式塔心里学学派( Gestalt psychology),认为视觉的很多功能是天生就有的。可以想想,如果一种视觉功能与生具有,不可建模,就谈不上计算,也许就不存在今天的“计算机视觉”这门学科了。

那么,马尔的计算理论是什么呢?这一方面,马尔在其书中似乎并不是介绍得特别具体。他举了一个购买商品的例子,说明计算理论的重要性。如商店结账要用加法而不是乘法。试想如果用乘法结账,每个商品1元钱,则不管你购买多少件商品,你仅仅需要付一元钱。

马尔的计算理论认为,图像是物理空间在视网膜上的投影,所以图像信息蕴含了物理空间的内在信息,因此,任何计算视觉计算理论和方法都应该从图像出发,充分挖掘图像所蕴含的对应物理空间的内在属性。也就是说,马尔的视觉计算理论就是要“挖掘关于成像物理场景的内在属性来完成相应的视觉问题计算”。因为从数学的观点看,仅仅从图像出发,很多视觉问题具有“歧义性”,如典型的左右眼图像之间的对应问题。如果没有任何先验知识,图像点对应关系不能唯一确定。不管任何动物或人,生活的环境都不是随机的,不管有意识或无意识,时时刻刻都在利用这些先验知识,来解释看到的场景和指导日常的行为和行动。如桌子上放一个水杯的场景,人们会正确地解释为桌子上放了一个水杯,而不把他们看作一个新物体。当然,人类也会经常出错,如大量错觉现象。从这个意义上来说,让计算机来模仿人类视觉是否一定是一条好的途径也是一个未知的命题。飞机的飞行需要借助空气动力学知识,而不是机械地模仿鸟如何飞。

2)表达和算法(Representationand Algorithm)

识别物体之前,不管是计算机还是人,大脑(或计算机内存)中事先要有对该物体的存储形式,称之为物体表达(object representation). 马尔视觉计算理论认为,物体的表达形式为该物体的三维几何形状。马尔当时猜测,由于人在识别物体时与观察物体的视角无关,而不同视角下同一物体在视网膜上的成像又不同,所以物体在大脑中的表达不可能是二维的,可能是三维形状,因为三维形状不依赖于观察视角。另外,当时病理学研究发现,有些病人无法辨认“茶杯”,但可以毫无困难地画出茶杯的形状,因此马尔觉得,这些病人也佐证了他的猜测。从目前对大脑的研究看,大脑的功能是分区的。物体的“几何形状”和“语义”储存在不同的脑区。另外,物体识别也不是绝对地与视角无关,仅仅在一个比较小的变化范围内与视角无关。所以,从当前的研究看,马尔的物体的“三维表达”猜测基本上是不正确的,至少是不完全正确的,但马尔的计算理论仍具有重要的理论意义和应用价值。

简言之,马尔视觉计算理论的“物体表达”,是指“物体坐标系下的三维形状表达”。注意,从数学上来说,一个三维几何形状,选取的坐标系不同,表达函数亦不同。如一个球体,如果以球心为坐标原点,则球面可以简单表达为:x^2+y^2+z^2=1。 但如果观测者在x轴上2倍半径处观测,则可见球面部分在观测者坐标系下的方程为:x=2-sqrt(1-y^2-z^2)。由此可见,同一物体,选用的坐标系不同,表达方式亦不同。马尔将“观测者坐标系下的三维几何形状表达”称之为“2.5维表达”,物体坐标系下的表达为“三维表达”。所以,在后续的算法部分,马尔重点研究了如何从图像先计算“2.5维表达”,然后转化为“三维表达”的计算方法和过程。

算法部分是马尔计算视觉的主体内容。马尔认为,从图像到三维表达,要经过三个计算层次:首先从图像得到一些基元(primal sketch), 然后通过立体视觉(stereopsis)等模块将基元提升到2.5维表达,最后提升到三维表达。

下图总结给出了马尔视觉计算理论的算法流程:

 

马尔计算理论中算法的三个计算层次


由上图所示,首先从图像提取边缘信息(二阶导数的过零点),然后提取点状基元(blob, 线状基元(edge)和杆状基元 (bar), 进而对这些初级基元(raw primal sketch)组合形成完整基元(full primal sketch),上述过程为视觉计算理论的特征提取阶段。在此基础上,通过立体视觉和运动视觉等模块,将基元提升到2.5维表达。最后,将2.5维表达提升到三维表达。在马尔的《视觉》一书中,重点介绍了特征提取和2.5维表达对应的计算方法。在2.5维表达部分,也仅仅重点介绍了立体视觉和运动视觉部分。由于当双眼(左右相机)的相互位置已知时(计算机视觉中称之为相机外参数),立体视觉就转化为“左右图像点的对应问题”(image point correspondence), 所以,马尔在立体视觉部分重点介绍了图像点之间的匹配问题,即如何剔除误匹配,并给出了对应算法。

立体视觉等计算得到的三维空间点仅仅是在“观测者坐标系下的坐标”,是物体的2.5维表示。如何进一步提升到物体坐标系下的三维表示,马尔给出了一些思路,但这方面都很粗泛。如确定物体的旋转主轴等等,这部分内容,类似于后来人们提出的“骨架模型”(skeleton model)构造.

需要指出的是,马尔的视觉计算理论是一种理论体系。在此体系下,可以进一步丰富具体的计算模块,构建“通用性视觉系统”(general vision system)。只可惜马尔(Jan.15,1945 ~ Nov.17,1980 )1980年底就因白血病去世,包括他的《视觉》一书,也是他去世后出版的。马尔的英年早逝,不能说不是计算机视觉界的一大损失。由于马尔的贡献,所以二年一度的国际计算机视觉大会(ICCV: International Conference on Computer Vision)设有马尔奖(MarrPrize),作为会议的最佳论文奖。另外,在认知科学领域,也设有马尔奖,因为马尔对认知科学也有巨大的贡献。以同一人名在不同领域设立奖项,实属罕见,可见马尔对计算机视觉的影响有多深远。正如S. Edelman 和 L. M. Vaina 在《 International Encyclopedia of the Social & Behavioral Sciences 》中对马尔的评价那样,“马尔前期给出的集成数学和神经生物学对大脑理解的三项工作,已足以使他在任何情况下在英国经验主义二个半世纪的科学殿堂中占有重要的一席,…, 然而,他进一步提出了更加有影响的计算视觉理论”。所以,从事计算机视觉研究的人员对马尔计算视觉不了解,实在是一件比较遗憾的事。


1.2.2 昙花一现的主动和目的视觉

很多人介绍计算机视觉时,将这部分内容不作为一个单独部分加以介绍,主要是因为“主动视觉和目的视觉”并没有对计算机视觉后续研究形成持续影响。但作为计算机视觉发展的一个重要阶段,这里还是有必要予以介绍一下。

上世纪80年代初马尔视觉计算理论提出后,学术界兴起了“计算机视觉”的热潮。人们想到的这种理论的一种直接应用就是给工业机器人赋予视觉能力,典型的系统就是所谓的“基于部件的系统”(parts-based system)。然而,10多年的研究,使人们认识到,尽管马尔计算视觉理论非常优美,但“鲁棒性”(Robustness)不够,很难想人们预想的那样在工业界得到广泛应用。这样,人们开始质疑这种理论的合理性,甚至提出了尖锐的批评。

对马尔计算视觉理论提出批评最多的有二点:一是认为这种三维重建过程是“纯粹自底向上的过程”(pure bottom-up process),缺乏高层反馈(top-down feedback);二是“重建”缺乏“目的性和主动性”。由于不同的用途,要求重建的精度不同,而不考虑具体任务,仅仅“盲目地重建一个适合任何任务的三维模型”似乎不合理。

对马尔视觉计算理论提出批评的代表性人物有:马里兰大学的 J. Y. Aloimonos;宾夕法尼亚大学的R. Bajcsy和密西根州立大学的A. K. Jaini。 Bajcsy 认为,视觉过程必然存在人与环境的交互,提出了主动视觉的概念(active vision). Aloimonos认为视觉要有目的性,且在很多应用,不需要严格三维重建,提出了“目的和定性视觉”(purpose and qualitative vision) 的概念。 Jain 认为应该重点强调应用,提出了“应用视觉”( practicing vision)的概念。上世纪80年代末到90年代初,可以说是计算机视觉领域的“彷徨”阶段。真有点“批评之声不绝,视觉之路茫茫”之势。

针对这种情况,当时视觉领域的一个著名刊物(CVGIP: Image Understanding)于1994年组织了一期专刊对计算视觉理论进行了辩论。首先由耶鲁大学的M. J. Tarr和布朗大学的M. J.Black写了一篇非常有争议性的观点文章(Tarr & Black, 1994),认为马尔的计算视觉并不排斥主动性,但把马尔的“通用视觉理论”(general vision)过分地强调“应用视觉”是“短见”(myopic)之举。通用视觉尽管无法给出严格定义,但“人类视觉”是最好的样板。这篇观点文章发表后,国际上20多位著名的视觉专家也发表了他们的观点和评论。大家普遍的观点是,“主动性”“目的性”是合理的,但问题是如何给出新的理论和方法。而当时提出的一些主动视觉方法,一则仅仅是算法层次上的改进,缺乏理论框架上的创新,另外,这些内容也完全可以纳入到马尔计算视觉框架下。所以,从1994年这场视觉大辩论后,主动视觉在计算机视觉界基本没有太多实质性进展。这段“彷徨阶段”持续不长,对后续计算机视觉的发展产生的影响不大,犹如“昙花一现”之状。

值得指出的是,“主动视觉”应该是一个非常好的概念,但困难在于“如何计算”。 主动视觉往往需要“视觉注视”(visual attention),需要研究脑皮层(cerebral cortex)高层区域到低层区域的反馈机制,这些问题,即使脑科学和神经科学已经较20年前取得了巨大进展的今天,仍缺乏“计算层次上的进展”可为计算机视觉研究人员提供实质性的参考和借鉴。近年来,各种脑成像手段的发展,特别是 “连接组学”(Connectomics)的进展,可望为计算机视觉人员研究大脑反馈机制提供“反馈途径和连接强度”提供一些借鉴。


1.2.3 多视几何和分层三维重建(Multiple View Geometry and Stratified 3D Reconstruction)

上世纪90年代初计算机视觉从“萧条”走向进一步“繁荣”,主要得益于以下二方面的因素:首先,瞄准的应用领域从精度和鲁棒性要求太高的“工业应用”转到要求不太高,特别是仅仅需要“视觉效果”的应用领域,如远程视频会议(teleconference),考古,虚拟现实,视频监控等。另一方面,人们发现,多视几何理论下的分层三维重建能有效提高三维重建的鲁棒性和精度。

多视几何的代表性人物首数法国INRIA的O. Faugeras ( Faugeras O, 1993), 美国GE 研究院的R.Hartely (现已回到了澳大利亚国立大学)和英国牛津大学的 A. Zisserman。应该说,多视几何的理论于2000年已基本完善。 2000 年Hartley 和Zisserman 合著的书 (Hartley & Zisserman 2000) 对这方面的内容给出了比较系统的总结,而后这方面的工作主要集中在如何提高“大数据下鲁棒性重建的计算效率”。大数据需要全自动重建,而全自动重建需要反复优化,而反复优化需要花费大量计算资源。所以,如何在保证鲁棒性的前提下快速进行大场景的三维重建是后期研究的重点。举一个简单例子,假如要三维重建北京中关村地区,为了保证重建的完整性,需要获取大量的地面和无人机图像。假如获取了1万幅地面高分辨率图像(4000×3000),5 千幅高分辨率无人机图像(8000×7000)(这样的图像规模是当前的典型规模),三维重建要匹配这些图像,从中选取合适的图像集,然后对相机位置信息进行标定并重建出场景的三维结构,如此大的数据量,人工干预是不可能的,所以整个三维重建流程必须全自动进行。这样需要重建算法和系统具有非常高的鲁棒性,否则根本无法全自动三维重建。在鲁棒性保证的情况下,三维重建效率也是一个巨大的挑战。所以,目前在这方面的研究重点是如何快速、鲁棒地重建大场景。

1)多视几何( Multiple View Geometry)

由于图像的成像过程是一个中心投影过程(perspective projection),所以“多视几何”本质上就是研究射影变换下图像对应点之间以及空间点与其投影的图像点之间的约束理论和计算方法的学科(注意:针孔成像模型(The pinhole camera model)是一种中心投影, 当相机有畸变时,需要将畸变后的图像点先校正到无畸变后才可以使用多视几何理论)。计算机视觉领域,多视几何主要研究二幅图像对应点之间的对极几何约束(epipolar geometry), 三幅图像对应点之间的三焦张量约束(tri-focal tensor),空间平面点到图像点,或空间点为平面点投影的多幅图像点之间的单应约束(homography)等。在多视几何中,射影变换下的不变量,如绝对二次曲线的像(The image of the absolute conic),绝对二次曲面的像(Theimage of the absolute quadric), 无穷远平面的单应矩阵(infinite homography),是非常重要的概念,是摄像机能够自标定的“参照物”。由于这些量是无穷远处“参照物”在图像上的投影,所以这些量与相机的位置和运动无关(原则上任何有限的运动不会影响无限远处的物体的性质),所以可以用这些“射影不变量”来自标定摄像机。关于多视几何和摄像机自标定的详细内容,可参阅Hartley 和Zisserman 合著的书(Hartley & Zisserman,2000).

总体上说,多视几何就其理论而言,在射影几何中不能算新内容。Hartley, Faugeras,  Zissermann等将多视几何理论引入到计算机视觉中,提出了分层三维重建理论和摄像机自标定理论,丰富了马尔三维重建理论,提高了三维重建的鲁棒性和对大数据的适应性,有力推动了三维重建的应用范围。所以,计算机视觉中的多视几何研究,是计算机视觉发展历程中的一个重要阶段和事件。

多视几何需要射影几何(projectivegeometry)的数学基础。射影几何是非欧几何,涉及平行直线相交,平行平面相交等抽象概念,表达和计算要在“齐次坐标”(homogeneous coordinates)下进行,这给“工科学生”带来不小的困难。所以,大家要从事这方面的研究,一定要先打好基础,至少要具备必要的射影几何知识。否则,做这方面的工作,无异于浪费时间。

2)分层三维重建( Stratified 3D Reconstruction)

所谓的分层三维重建,如下图所示,就是指从多幅二维图像恢复欧几里德空间的三维结构时,不是从图像一步到欧几里德空间下的三维结构,而是分步分层地进行。即先从多幅图像的对应点重建射影空间下的对应空间点(即射影重建:projective reconstruction),然后把射影空间下重建的点提升到仿射空间下(即仿射重建:affine reconstruction),最后把仿射空间下重建的点再提升到欧几里德空间(或度量空间: metric reconstruction)(注:度量空间与欧几里德空间差一个常数因子。由于分层三维重建仅仅靠图像进行空间点重建,没有已知的“绝对尺度”,如“窗户的长为1米”等,所以从图像仅仅能够把空间点恢复到度量空间)。

 


这里有几个概念需要解释一下。以空间三维点的三维重建为例,所谓的“射影重建”,是指重建的点的坐标与该点在欧几里德空间下的坐标差一个“射影变换”。所谓的“仿射重建”,是指重建的点的坐标与该点在欧几里德空间下的坐标差一个“仿射变换”。所谓的“度量重建”,是指重建的点的坐标与该点在欧几里德空间下的坐标差一个“相似变换”。

由于任何一个视觉问题最终都可以转化为一个多参数下的非线性优化问题,而非线性优化的困难在于找到一个合理的初值。由于待优化的参数越多,一般来说解空间越复杂,寻找合适的初值越困难,所以,如果一个优化问题如能将参数分组分步优化,则一般可以大大简化优化问题的难度。分层三维重建计算上的合理性正是利用了这种“分组分步”的优化策略。以三幅图像为例,直接从图像对应点重建度量空间的三维点需要非线性优化16个参数(假定相机内参数不变,5个相机内参数,第二幅和第三幅图像相对于第一幅图像的相机的旋转和平移参数,去掉一个常数因子,所以5+2×(3+3)-1=16), 这是一个非常困难的优化问题。但从图像对应点到射影重建需要“线性”估计22个参数,由于是线性优化,所以优化问题并不困难。从射影重建提升到仿射重建需要“非线性”优化三个参数(无穷远平面的3个平面参数),而从仿射重建提升到度量重建需要“非线性”优化5个参数(摄像机的5个内参数)。因此,分层三维重建仅仅需要分步优化3个和5个参数的非线性优化问题,从而大大减小了三维重建的计算复杂度。

分层三维重建的另一个特点是其理论的优美性。射影重建下,空间直线的投影仍为直线,二条相交直线其投影直线仍相交,但空间直线之间的平行性和垂直性不再保持。仿射重建下可以保持直线的平行性,但不能保持直线的垂直性。度量重建既可以保持直线之间的平行线,也可以保持垂直性。在具体应用中,可以利用这些性质逐级提升重建结果。

分层三维重建理论可以说是计算机视觉界继马尔计算视觉理论提出后又一个最重要和最具有影响力的理论。目前很多大公司的三维视觉应用,如苹果公司的三维地图,百度公司的三维地图,诺基亚的Streetview, 微软的虚拟地球,其后台核心支撑技术的一项重要技术就是分层三维重建技术。

3)摄像机自标定(Cameraself-calibration)

所谓摄像机标定,狭义上讲,就是确定摄像机内部机械和光电参数的过程,如焦距,光轴与像平面的交点等。尽管相机出厂时都标有一些标准参数,但这些参数一般不够精确,很难直接在三维重建和视觉测量中应用。所以,为了提高三维重建的精度,需要对这些相机内参数(intrinsic parameters)进行估计。估计相机的内参数的过程,称为相机标定。在文献中,有时把估计相机在给定物体坐标系下的坐标,或相机之间相互之间的位置关系,称为相机外参数(extrinsic parameters)标定。但一般无明确指定时,相机标定就是指对相机内参数的标定。

相机标定包含二方面的内容:“成像模型选择”和“模型参数估计”。相机标定时首先需要确定“合理的相机成像模型”,如是不是针孔模型,有没有畸变等。目前关于相机模型选择方面,没有太好的指导理论,只能根据具体相机和具体应用确定。随着相机加工工艺的提高,一般来说,普通相机(非鱼眼或大广角镜头等特殊相机)一般使用针孔成像模型(加一阶或二阶径向畸变)就足以了。其它畸变很小,可以不加考虑。当相机成像模型确定后,进一步需要估计对应的模型参数。文献中人们往往将成像模型参数估计简单地认为就是相机标定,是不全面的。事实上,相机模型选择是相机标定最关键的步骤。一种相机如果无畸变而在标定时考虑了畸变,或有畸变而未加考虑,都会产生大的误差。视觉应用人员应该特别关注“相机模型选择”问题。

相机参数估计原则上均需要一个“已知三维结构”的“标定参考物”,如平面棋盘格,立体块等。所谓相机标定,就是利用已知标定参考物和其投影图像,在已知成像模型下建立模型参数的约束方程,进而估计模型参数的过程。所谓“自标定”,就是指“仅仅利用图像特征点之间的对应关系,不需要借助具体物理标定参考物,进行模型参数估计的过程”。“传统标定”需要使用加工尺寸已知的标定参考物,自标定不需要这类物理标定物,正像前面多视几何部分所言,使用的是抽象的无穷远平面上的“绝对二次曲线”和“绝对二次曲面”。从这个意义上来说,自标定也需要参考物,仅仅是“虚拟的无穷远处的参考物”而已。

摄像机自标定需要用到两幅图像之间的约束,如基础矩阵(fundamental matrix), 本质矩阵(essential matrix), 以及三幅图像之间的三焦张量约束等。另外,Kruppa 方程也是一个重要的概念。这些内容是多视几何的重要内容,后续章节将进行详细介绍。


1.2.4 基于学习的视觉(Learning based vision)

基于学习的视觉,是指以机器学习为主要技术手段的计算机视觉研究。基于学习的视觉研究,文献中大体上分为二个阶段:本世纪初的以流形学习( manifold Learning)为代表的子空间法( subspace method)和目前以深度神经网络和深度学习(deep neural networks and deep learning)为代表的视觉方法。

1)流形学习(Manifold Learning)

正像前面所指出的,物体表达是物体识别的核心问题。给定图像物体,如人脸图像,不同的表达,物体的分类和识别率不同。另外,直接将图像像素作为表达是一种“过表达”,也不是一种好的表达。流形学习理论认为,一种图像物体存在其“内在流形”(intrinsic manifold), 这种内在流形是该物体的一种优质表达。所以,流形学习就是从图像表达学习其内在流形表达的过程,这种内在流形的学习过程一般是一种非线性优化过程。

流形学习始于2000年在Science 上发表的二篇文章( Tenenbaum et al., 2000) (Roweis & Lawrence 2000)。流形学习一个困难的问题是没有严格的理论来确定内在流形的维度。人们发现,很多情况下流形学习的结果还不如传统的PCA (Principal Component Analysis),LDA( linear DiscriminantAnalysis ), MDS( Multidimensional Scaling)等. 流形学习的代表方法有:LLE(Locally Linear Embedding )(Roweis & Lawrence 2000),Isomap ( Tenenbaum et al., 2000), Laplacian Eigenmaps (Belkin & Niyogi, 2001)等。

2)深度学习(Deep Learning)

深度学习( LeCunet al. 2015) 的成功,主要得益于数据积累和计算能力的提高。深度网络的概念上世纪80年代就已提出来了,只是因为当时发现“深度网络”性能还不如“浅层网络”,所以没有得到大的发展。目前似乎有点计算机视觉就是深度学习的应用之势,这可以从计算机视觉的三大国际会议:国际计算机视觉会议(ICCV),欧洲计算机视觉会议(ECCV)和计算机视觉和模式识别会议(CVPR),上近年来发表的论文可见一般。目前的基本状况是,人们都在利用深度学习来“取代”计算机视觉中的传统方法。“研究人员”成了“调程序的机器”,这实在是一种不正常的“群众式运动”。牛顿的万有引力定律,麦克斯韦的电磁方程,爱因斯坦的质能方程,量子力学中的薛定谔方程,似乎还是人们应该追求的目标。

关于深度网络和深度学习,详细内容可参阅相关文献,这里仅仅强调以下几点:

(1)深度学习在物体视觉方面较传统方法体现了巨大优势,但在空间视觉,如三维重建,物体定位方面,仍无法与基于几何的方法相媲美。这主要是因为深度学习很难处理图像特征之间的误匹配现象。在基于几何的三维重建中,RANSAC (Random Sample Consensus)等鲁棒外点(误匹配点)剔除模块可以反复调用,而在深度学习中,目前还很难集成诸如RANSAC等外点剔除机制。笔者认为,如果深度网络不能很好地集成外点剔除模块,深度学习在三维重建中将很难与基于几何的方法相媲美,甚至很难在空间视觉中得到有效应用;

(2) 深度学习在静态图像物体识别方面已经成熟,这也是为什么在ImageNet上的物体分类竞赛已不再举行的缘故;

(3) 目前的深度网络,基本上是前馈网络(feedforwardNetworks).不同网络主要体现在使用的代价函数不同。下一步预计要探索具有“反馈机制”的层次化网络。反馈机制,需要借鉴脑神经网络机制,特别是连接组学的成果。

(4) 目前对视频的处理,人们提出了RCNN (Recurrent Neural Networks). 循环( recurrent) 是一种有效的同层作用机制,但不能代替反馈。大脑皮层远距离的反馈(将在生物视觉简介一章介绍)可能是形成大脑皮层不同区域具有不同特定功能的神经基础。所以,研究反馈机制,特别具有“长距离反馈”(跨多层之间)的深度网络, 将是今后研究图像理解的一个重要方向;

(5)尽管深度学习和深度网络在图像物体识别方面取得了“变革性”成果,但为什么“深度学习”会取得如此好的结果目前仍然缺乏坚实的理论基础。目前已有一些这方面的研究,但仍缺乏系统性的理论。事实上,“层次化”是本质,不仅深度网络,其它层次化模型,如Hmax 模型(Riesenhuber & Poggio,1999) HTM (Hierarchical Temporal memory)模型(George & Hawkins, 2009)存在同样的理论困惑。为什么“层次化结构”( hierarchical structure )具有优势仍是一个巨大的迷。


1.3 计算机视觉的若干发展趋势

信息科学发展之迅速,对未来10年的发展趋势进行预测,有点“算命”的感觉。 对计算机视觉而言,笔者有以下几点对未来发展的展望:

(1) 基于学习的物体视觉和基于几何的空间视觉继续“相互独立”进行。深度学习在短时期内很难代替几何视觉。在深度网络中如何引入“鲁棒外点剔除模块”将是一个探索方向,但短时间内估计很难有实质性进展;

(2) 基于视觉的定位将更加趋向“应用性研究”,特别是多传感器融合的视觉定位技术。

(3) 三维点云重建技术已经比较成熟,如何从“点云”到“语义”是未来研究重点。“语义重建”将点云重建、物体分割和物体识别同时进行,是三维重建走向实用的前提。

(4)对室外场景的三维重建,如何重建符合“城市管理规范”的模型是一个有待解决的问题。室内场景重建估计最大的潜在应用是“家庭服务机器人”。 鉴于室内重建的应用还缺乏非常具体的应用需求和驱动,在加上室内环境的复杂性,估计在3-5年内很难有突破性进展。

(5)对物体识别而言,基于深度学习的物体识别估计将从“通用识别”向“特定领域物体的识别”发展。“特定领域”可以提供更加明确和具体的先验信息,可以有效提高识别的精度和效率,更加具有实用性;

(6)目前基于RCNN 对视频理解的趋势将会持续;

(7) 解析深度网络机理的工作具有重大的理论意义和挑战性,鉴于深度网络的复杂性,估计近期很难取得突破性进展;

(8)具有“反馈机制”的深度网络结构(architecture)研究必将是下一个研究热点。


1.4 几种典型的物体表达理论(Object representation theories)

正像前面所述,物体表达是计算机视觉的一个核心科学问题。这里,“物体表达理论”与“物体表达模型”需要加以区别。“表达理论”是指文献中大家比较认可的方法。“表达模型”容易误解为“数学上对物体的某种描述”。计算机视觉领域,比较著名的物体表达理论有以下三种:

1)马尔的三维物体表达

前面已经介绍过,马尔视觉计算理论认为物体的表达是物体坐标系下的三维表达

2)基于二维图像的物体表达(View-basedobject representation)

尽管理论上一个三维物体可以成像为无限多不同的二维图像,但人的视觉系统仅仅可以识别“有限个图像”。鉴于神经科学对于猴子腹部通道(ventral pathway)(注:腹部通道认为是物体识别通道)的研究进展,T. Poggio 等提出了基于图像的物体表达(Poggio & Bizzi, 2004),即对一个三维物体的表达是该物体的一组典型的二维图像(view)。目前,也有人认为 Poggio等的”view”不能狭义地理解为二维图像,也包含以观测者为坐标系下的三维表示,即马尔的2.5维表示(Anzai & DeAngelis,2010)。

3)逆生成模型表达(Inversegenerative model representation )

长期以来,人们认为物体识别模型为“鉴别模型”( discriminative model),而不是“生成模型”( generative model )。近期对猴子腹部通道的物体识别研究表明,猴子大脑皮层的IT 区( Inferior Temporal: 物体表达区域)可能在于编码物体及其成像参数(如光照和姿态,几何形状,纹理等)(Yildirim et al. 2015)(Yamins &DiCarlo,2016b.)。由于已知这些参数就可以生成对应图像,所以对这些参数的编码可以认为是逆生成模型表达。逆生成模型表达可以解释为什么深度学习中的Encoder-decoder 网络结( Badrinarayanan et al. 2015) 可以取得比较好的效果,因为Encoder本质上就是图像的逆生成模型。另外,深度学习中提出的“逆图形学”概念( Inverse Graphic)( Kulkarniet al. 2015),从原理上也是一种逆生成模型。逆图形学是指先从图像学习到图像生成参数,然后把同一物体在不同参数下的图像归类为同一物体,通过这种“等变物体识别”(Equivariant recognition) 来达到最终的“不变物体识别”(invariantrecognition)。

总之,本文对计算机视觉的理论、现状和未来发展趋势进行了一些总结和展望,希望能给读者了解该领域提供一些帮助。特别需要指出的是,这里很多内容也仅仅是笔者的一些“个人观点”和“个人偏好”下总结的一些内容,以期对读者有所帮助但不引起误导。另外,笔者始终认为,任何一门学科的核心关键文献并不多,为了读者阅读方便,所以本文也仅仅给出了一些必要的代表性文献。


参考文献: 

  1. MarrD (1982), Vision: A computational investigation into the human representationand processing of visual information, W.H. Freeman and Company.

  2. YaminsD. L K. & DiCarlo J.J (2016a),Using goal-driven deep learning models tounderstand sensory cortex, Nature Neuroscience,Perspective,  Vol. 19, No.3, pp.356-365..

  3. YaminsD. L. K et al.(2014), Performance-optimized hierarchical models predict neuralresponses in higher visual cortex, PNAS, Vol.111, No.23, pp.8619-8624.

  4. Yamins  D. L. K & DiCarlo  J. J. (2016b).  Explicit Information for category-orthogonalobject properties increases along the ventral stream, Nature Neuroscience,Vo.19, No.4, pp.613-622.

  5. Edelman.S & Vaina L. (2015). Marr, David (1945–80),International Encyclopedia of the Social & BehavioralSciences (Second Edition), pp. 596-598

  6. Tarr.M & Black M. (1994). A computational and Evolutionary Perspective on theRole of Representation in Vision, CVGIP: Image Understanding, Vol.60, No.1,pp.65-73.

  7. HartleyR & Zisserman A.(2000). Multiple View Geometry in Computer Vision,Cambridge University Press.

  8. FaugerasO (1993). Three-Dimensional Computer Vision: A geometric Viewpoint, MIT Press.

  9. TenenbaumJ. B. et al. (2000). A Global Geometric Framework for Nonlinear DimensionalityReduction, Science, Vol. 290, No.5500, pp.2319–2323.

  10. Roweis.S&Saul. L(2000). Nonlinear Dimensionality Reduction by Locally LinearEmbedding, Science, Vol.290, No.5500, pp.2323—2326.

  11. Belkin.M& Niyogi.P.(2001). Laplacian Eigenmaps and Spectral Techniques for Embeddingand Clustering, Advances in Neural Information Processing Systems 14, pp.586–691, MIT Press

  12. LeCun.Y et al. (2015). Deep Learning, Nature, Vol.521 , pp.436-444.

  13. Riesenhuber.M. & Poggio. T.(1999). Hierarchical Models of Object Recognition in Cortex, Nature Neuroscience 2:1019-1025.

  14. GeorgeD & Hawkins J (2009). Towards a mathematical theory of cortical micro-circuits,PloS Computational Biology, Vol.5, No.10, pp.1-26.

  15. Poggio.T & Bizzi. E(2004). Generalization in vision and motor control, Nature 431,Vol.14, pp.768-774.

  16. Anzai.A & DeAngelis. G (2010). Neural computations underlying depth perception,Curr Opin Neurobiol., Vol.20,No.3, pp. 367–375.

  17. Yildirim.I et al. (2015). Efficient analysis-by-synthesis in vision: A computationalframework, behavioral tests, and comparison with neural representations. InProceedings of the 37th Annual Cognitive Science Society.

  18. Badrinarayanan.V et al. (2015). Segnet: A deep convolutional encoder-decoder architecture forimage segmentation, arXiv:1511.00561.

  19. KulkarniT. D. et al.(2015).  Deep ConvolutionalInverse Graphics Network, NIPS 2015.


本文经授权转载自机器视觉课题组:RobotVisionGroup。


欢迎查看专知计算机视觉荟萃知识资料全集(关注本公众号-专知,获取下载链接):

【专知荟萃06】计算机视觉CV知识资料大全集(入门/进阶/论文/课程/会议/专家等)(附pdf下载)



-END-

专 · 知

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取AI知识资料


请关注我们的公众号,获取人工智能的专业知识。扫一扫关注我们的微信公众号。

点击“阅读原文”,使用专知


登录查看更多
9

相关内容

在计算机视觉中, 三维重建是指根据单视图或者多视图的图像重建三维信息的过程. 由于单视频的信息不完全,因此三维重建需要利用经验知识. 而多视图的三维重建(类似人的双目定位)相对比较容易, 其方法是先对摄像机进行标定, 即计算出摄像机的图象坐标系与世界坐标系的关系.然后利用多个二维图象中的信息重建出三维信息。 物体三维重建是计算机辅助几何设计(CAGD)、计算机图形学(CG)、计算机动画、计算机视觉、医学图像处理、科学计算和虚拟现实、数字媒体创作等领域的共性科学问题和核心技术。在计算机内生成物体三维表示主要有两类方法。一类是使用几何建模软件通过人机交互生成人为控制下的物体三维几何模型,另一类是通过一定的手段获取真实物体的几何形状。前者实现技术已经十分成熟,现有若干软件支持,比如:3DMAX、Maya、AutoCAD、UG等等,它们一般使用具有数学表达式的曲线曲面表示几何形状。后者一般称为三维重建过程,三维重建是指利用二维投影恢复物体三维信息(形状等)的数学过程和计算机技术,包括数据获取、预处理、点云拼接和特征分析等步骤。

计算机视觉是人工智能的“眼睛”,是感知客观世界的核心技术。进入21世纪以来,计算机视觉领域蓬勃发展,各种理论与方法大量涌现,并在多个核心问题上取得了令人瞩目的成果。为了进一步推动计算机视觉领域的发展,CCF-CV组织了RACV 2019,邀请多位计算机视觉领域资深专家对相关主题的发展现状和未来趋势进行研讨。我们将研讨内容按专题实录整理,尽最大可能以原汁原味的形式还原观点争鸣现场,希望有助于激发头脑风暴,产生一系列启发性的观点和思想,推动计算机视觉领域持续发展。

本期专题为“未来5-10年计算机视觉发展趋势”。各位专家从计算机视觉发展历程、现有研究局限性、未来研究方向以及视觉研究范式等多方面展开了深入的探讨。

主题组织者:林宙辰,刘日升,阚美娜 讨论时间:2019年9月27日 发言嘉宾:查红彬,陈熙霖,卢湖川,刘烨斌,章国锋 参与讨论嘉宾[发言顺序]:谢晓华,林宙辰,林倞,山世光,胡占义,纪荣嵘,王亦洲,王井东,王涛,杨睿刚,郑伟诗,贾云得,鲁继文,王亮 文字整理:阚美娜,刘日升

开场:山世光、林宙辰 山世光:上次计算机视觉专委会常委会上,在谭院士的倡议下这次RACV尝试一下相对比较小规模的、以讨论未来与问题为主的这样一种形式。这次的RACV希望所有的发言人,都不是讲自己的或已经做的工作,而是围绕着每一个主题讲一讲自己的观点和看法。大家在发言的时候可以无所顾忌,可以争论。我们会有记录和录音,但最后的文字会经过大家的确认之后才发布。

林宙辰: RACV是希望大家有一些深入的研讨,互相挑战,以达到深入讨论的目的。第一个主题是未来5-10年CV的发展趋势。希望我们这次研讨会尤其是CV发展趋势这个主题能够类似达特茅斯会议,产生一些新的思想。

嘉宾主题发言

  1. 查红彬 未来五年或十年CV的发展趋势是很难预测的,有时候想的太多,反而容易跑偏。所以,今天我主要从自己认识的角度说说后面我们该做些什么样的事情。

首先,说说什么叫计算机视觉?我这里给了一个比较严格的定义,即使用计算机技术来模拟、仿真与实现生物的视觉功能。但这个定义并没有将事情完全讲清楚,这里把计算机和视觉两个概念揉到了一起,但到底什么叫计算机、什么叫视觉并没有说。什么叫计算机大家是能够公认的。但什么叫视觉,其实在计算机视觉领域里还没有一个大家都认可的定义。

我们不妨先看看现在计算机视觉领域里有哪些研究内容。先来看看今年ICCV各个分会的关键词,其中最大的几个领域是deep learning;recognition;segmentation, grouping and shape等。这些领域是视觉吗?说是图像处理、分析与理解也能说的通。关键问题在于,我们讲来讲去到底是不是真的在做视觉?这点有必要再想想。举个例子--人脸识别:人脸识别现在能识别大量的人脸图像与视频,几十万、几百万人都能够识别。它是用大数据驱动的方式来达到目的的,而且是离线学习的。但识别算法在实际应用中对光照、遮挡等的鲁棒性比较差。我们回过头看看人的人脸识别有些什么样的功能呢?我们人识别人脸的功能很强,但只能识别很少数量的人脸,如亲戚、朋友、同事等,超过一定范围之后人是很难识别出来陌生人的人脸的,我们能看到有差别但分不清谁是谁。第二个,人是在生活情景当中进行主动性的样本学习。我们之所以能够认识亲属,是因为我们在日常生活当中与他们生活在一起,建立了各种各样的关系。我们主动地用样本来学,利用了不同层次的特征。所以,尽管我们识别人脸的数量少,但是我们对抗干扰的能力很强。所以我觉得这是人的人脸识别和现在机器的人脸识别之间的差别。也就是,人的视觉中的人脸识别有它明显的特点,它能很好地应对现实环境中的视觉处理任务。

那么现实环境中的视觉处理应该考虑哪些因素呢?我们有计算机、机器人这些智能机器,同时还有其它两个关键的部分。第一个部分是要通过视觉这个接口来同外部世界建立联系,同环境进行互动;第二个是我们讲视觉的时候,生物的感知机理给我们提供了很多依据。这其中,我们要应对的是现实环境的开放性,以及三维世界的复杂性,我们要面对场景当中很多动态的变化以及层次性结构的多样性。

另一方面,生物的感知机理有什么呢?它是一个学习过程,但这个学习是柔性的,并不是我们现在这样的离线学习并固定的方式。我们现在的机器学习用起来就只是测试。但我们人的学习中测试和学习过程并不是严格可分的,它有结构上的柔性,也需要层次化的处理。此外,它有主动性,能够根据它的目的和任务主动地进行学习。同时,我们日常生活当中所需要的是一种时序数据的处理,是一种增量型的处理过程。从这样的角度来看,我们将来的计算机视觉研究需要考虑把真实环境的特点与生物的感知机理融合进来。这样就会更接近“视觉”这个词本来的意义。

那这其中有哪些事情我们可以去考虑呢?首先是学习的问题。现在,深度学习用的很多,但它只是我们人的模式识别当中的一部分功能,对于视觉研究来说,还有很大的挖掘空间。也就是说,我们考虑计算机视觉中的机器学习的时候,不仅仅是深度,还要把网络的宽度、结构可重构性与结构柔性结合起来。我们要把不同的结构层次研究明白,同时把不同模块之间的连接关系考虑到网络里来。我们人的大脑就是这样的,大脑从视觉的低层特征抽取往上,它具有很多不同的功能性结构在里面,而且这个功能性结构是可塑的。其次,除了通常讲的识别功能之外,我们要把记忆、注意等一些认知机制通过学习的方式实现出来。目前已经有一些这方面的工作了。将来这些机制在计算机视觉里面可能会作为学习的一个核心目标,融到我们现在的整个体系当中。另外,还应考虑通过环境的交互这种方式来选择需要的样本进行自主学习等。所以,这种学习方式上的结构柔性应该是我们追求的一个目标。

另外一点,我们现在的计算机视觉还比较缺乏对动态场景的处理。我们现在很多工作是在静态场景里面,像人脸识别也是在静态场景里面来做。尽管有时候我们用视频来做,但并没有深入考虑整个场景的动态特性。现在动态目标的跟踪、检测、分析、行为的识别与理解等这些工作都有在做,但还没有上升到一个系统化的水平。我们也应该把更多的注意力放到像移动传感器的定位、三维动态场景的重建与理解等一些事情上面来。所以,我认为动态视觉是未来的另一个重要研究方向。

还有一个是主动视觉。主动视觉是把感知与运动、控制结合起来,形成一个闭环。计算机视觉里很早就有一个研究课题,叫视觉伺服,是想把控制和感知很好地结合起来。我们的感知一部分是为任务目的服务,另外一部分是为感知本身服务,即从一种主动控制的角度来考虑感知功能的实现,以提高感知系统的自适应能力,迁移学习、无间断学习或终身学习等都可以应用进来。此外,还应当考虑常识、意识、动机以及它们之间的关系。也就是说,我们要把视觉上升到有意识的、可控制的一个过程。

如果我们把前面提到的时序与动态处理等结合起来之后,应该更多考虑在线学习。我们不应该全部依赖目前这种离线学习、仅使用标注数据,而是应该在动态的环境当中,根据运动与动态数据流本身的特性来做预测与学习。这样可以把前面提到的记忆与注意力等一些机制结合起来,最终实现一种无监督的在线学习系统。这样一来就能把现实环境中的一些特点与变化考虑进来,形成一套新的理论。而这个理论,跟现在的深度学习、图像处理分析与理解等相比,会更接近我们讲的视觉这个概念。

  1. 陈熙霖 预测可见未来是一件风险极大的事,对于这个命题作文我只能说个人的观点。我更愿意从历史的角度来看这件事情。首先,我们回顾一下计算机视觉的发展历程。我把过去几十年的过程分为以下几个阶段。第一个阶段我称之为启蒙阶段,标志性的事件是1963年L. Robert的三维积木世界分析的博士论文(Machine Perception of Three-dimensional Solids)和1966年夏天Minsky安排几个本科生做的手眼系统。这个阶段对计算机视觉的估计过于乐观,认为这事太容易了,很快就可以解决,正如S. Papert的报告中写到的“The summer vision project is an attempt to use our summer workers effectively in the construction of a significant part of a visual system”。启蒙阶段的重要启示就是发现这个问题远比想象的困难。

从七十年代初期开始进入第二个阶段,我称之为重构主义,这是以D. Marr的视觉框架为代表的。这个框架在Marr的总结性著作“Vision --A Computational Investigation into the Human Representation and Processing of Visual Information”中有很好的阐述。其核心是将一切对象恢复到三维表达。其基本过程是:图像à基本要素图(primal sketch)à以观察者为中心的三维表达(2.5D skecth)à以观察对象为中心的3D表达。这个过程看起来很漂亮,但却存在两方面的问题——首先是这样的过程是否是必须的,其次是如果都试图恢复三维,这样不论对感知测量还是计算是否现实。我个人认为三维在计算机视觉中的作用也是有限的。这个阶段的工作也导致了上世纪90年代初对计算机视觉研究的反思和争论。有兴趣的各位可以看看1991年CVGIP: Image Understanding第53卷第1期上的讨论文章。

第三个阶段我称之为分类主义,反正只要能识别就好,不管白猫黑猫抓住老鼠就好。人脸识别、各种多类物体识别等都在这个阶段大行其道,研究者们采用各种各样的方法,从研究各类不变算子(如SIFT、HOG等)到分类方法(如SVM、AdaBoost等)。这个阶段推进了识别问题的解决,但似乎总差最后一公里。

最近的一个阶段我称之为拼力气比规模阶段,其核心是联结主义的复兴,这得益于数据和计算资源的廉价化。这类方法在各种分类问题上似乎得到了很好的解决。但这些方法背后缺少了很多研究需要追求和思考的东西,过去我们都在讲找一个美妙的办法。如同我们希望瞄准目标,以最小的代价击中目标。现在这类方法更像是炮决,今天我们似乎进入了这样的炮决时代。

那么未来会是怎么样的?从前面的发展历史来看,计算机视觉经过几十年的发展进入了野蛮人的时代。什么叫进入野蛮人的时代了?今天大家说人工智能热,可几乎所有拿来验证人工智能的例子都是和计算机视觉相关的。而今天很多所谓的计算机视觉研究就是拿深度学习训练一个模型,所以说这是个野蛮人的时代。那么野蛮人时代有什么问题?我们看上一个和野蛮人时代相关的历史——罗马帝国。罗马帝国是被野蛮人消灭的,罗马(更具体的是指西罗马)从建国到被灭亡,中间大概有500年。而且西罗马被灭了以后,还有一个叫神圣罗马帝国,按照尤瓦尔·赫拉利《人类简史》上的说法后者既不神圣也不是帝国。当年罗马帝国也是所有的东西都讲究漂亮美丽——斗兽场、引水渠以及打到哪修到哪的条条大路(通罗马)。计算机视觉早年的研究者也是天天追求漂亮,要数学上美、物理上美等等,就和当年罗马帝国一样。现在也真的和罗马帝国一样了,我们遇到了蛮族人。这个蛮族人是谁?就是深度学习,和过去罗马人关心文明,蛮族人关心财富一样,在计算机视觉的研究上,我们也面临着如何选择的问题。当然,历史也会惊人地相似,蛮族人占领罗马以后也不是什么都没干。后来他们建立神圣罗马帝国,到后来导致文艺复兴。今天计算机视觉的研究在我们看来也需要一个文艺复兴。什么是我们的文艺复兴?我们当下的计算机视觉就处在这么一个需要思考的时期。而不是一味地倒向深度学习。现在有些研究走向比蛮力的阶段,就跟打仗比坦克、大炮的数量一样,靠拼GPU的规模和计算能力。下一步,我们需要往哪里走?这是现在这个野蛮人时代需要思考的。

预测未来五到十年这是一个风险极大的问题。所以我只能通过前面讲的历史和我的一点思考谈谈对未来的一些可能。

首先,一个值得关注的未来趋势是从识别到理解,套用古人的说法就是从知其然到知其所以然。过去十多年计算机视觉在识别方面取得了显著的进展,但是现在的识别远远不是我们所期望的识别。例如你教它识别一个杯子,它不会想到杯子和水有任何关系,不会想到杯子有任何的其他功能,因而完全是填鸭式的。今天的识别远远不是可解释的。谈到可解释,我认为在计算机视觉领域的可解释应该是对结论的解释,而不是解释网络行为,前者应该更有价值。那么要解释这一切靠什么?应该是靠某种形式的逻辑关系,这种关系可以通过语言表达,语言应该起到桥接作用。这里的语言和自然语言有关系也有区别,可以是独立于我们自然语言的,是机器自己对世界理解的语言。换句话说,我们把世界的物体重新编码起来,然后把物体和物体,物体和环境的联系建立起来就好。有了这样的从基本属性到对象直至环境的关系,就有可能实现从知其然到知其所以然。所以我觉得未来最重要的趋势就是从无需知识支撑的识别到需要知识支撑的理解,或者说从单纯的Bottom-up的识别到需要知识启发的具有反馈、推理的更广义的计算机视觉,这也是我自己这几年特别关注的研究方向。

其次,值得关注的一个趋势就是对空间感的有限需求。关于为什么动物需要视觉,主要是两方面的需求——首先要保证寻找食物和不被天敌吃掉——识别能力;其次是保证不会因为对空间的错误判断而造成意外伤害(摔倒或者撞击等)。视觉最重要的就是解决这两件事情。那么为什么讲对空间感的有限需求?我们的三维空间感,只是在相对比较近的时候,才需要很精确。在距离稍远一点的情况下,大多数时候其实不关心精确的空间位置,而可能关心一些如遮挡、顺序等关系。另外,如果你试图把一切对象都用三维来表示的话,不管是从计算的代价还是从可实现性来讲都很难。试想恢复一个一米远处的对象,可以做得很精确,而对于一百米或者更远的对象,如果希望保持相同的量化精度,对深度值的量化就会成问题。这就是说的有限需求的含义,但是我觉得这件事情一定很重要,特别是在较近的时候。

第三个值得关注的趋势就是不同模态的结合,即所谓聪明合一,人的聪明离不开耳聪目明。这里的模态不仅仅限于视听觉,还可以包括不同的二维、三维的视觉传感信息等。生物的感知从来不是仅靠单一模态的。在多模态中需要解决好的一个问题是不同模态间的对齐与因果问题。如果同时存在从多个模态获取的信息,时空对齐是非常重要的挑战。与时空对齐相关的另一个问题是因果关系,虽然我们希望获得因果,但绝大多数时候得到的仅仅是关联,两个现象之间可以是第三个因素导致的,如同云层间放电导致电闪和雷鸣,这两件事是关联的,但绝不是电闪导致雷鸣。在绝大多数情况下我更倾向于去探索关联而不是因果,特别是在数据驱动的模型下,离开机理试图发现因果是困难的。但在未来的计算机视觉研究中不同模态的结合和关联是一个重要的趋势。

第四个需要关注的趋势是主动视觉,所谓主动就是在视觉系统中纳入了反馈的机制,从而具有选择的可能。视觉如果仅仅以独立的形式存在,则不论是从感知所需的精度、分辨率以及处理的能力都需要成指数规模的增加,生物视觉由于有了主动选择的机制,因而在视野、分辨率、三维感知与能量消耗方面得到了很好的平衡。当计算机视觉的研究不仅仅是为了验证某个单一的功能时,上述生物视觉的平衡一样需要在计算机视觉系统中考虑,实现从感知、响应到行为的闭环。从被动感知走到主动的感知,这是从算法到系统的一个重要趋势。将视觉的“看”与“响应”和“行为”构成广义的计算机视觉系统,通过有主动的“行为”进行探索,实现“魂”和“体”的合一。这对视觉应用系统是至关重要的——例如一个经过预训练的服务机器人,可以通过在新环境中的主动探索,实现整体智能的提升。所以我认为这是未来视觉应用系统的重要趋势。

我没有讲具体的算法哪些是重要的。我想说一件事情,就是关于深度学习,我觉得未来深度学习就会像今天计算机里看到的寄存器、触发器、存储器乃至CPU一样,成为基本构件。关于趋势,延续前面的划分,计算机视觉将进入一个知识为中心的阶段。随着深度学习的广泛应用,计算机视觉系统将不仅处理单一任务。在复杂视觉任务的处理中,主动视觉将起到重要的作用。通过主动的响应和探索,构建并完善视觉系统对观察世界的关联(因果)关系并借此理解空间对象的时空关系、物理属性等。这算是我对今天讨论问题的个人预测。

  1. 卢湖川 刚才前面两位老师已经提纲挈领的提了一些观点,我可能有一些和他们是相似的。

从理论方面来讲,我觉得目前深度学习的理论好像有点走不太动了。具体来说,从Backbone的发展来看,网络结构的设计,基本上没有更多新的内容。另一方面,某些领域还是比较热门的,发展比较快。比如说自然语言处理(NLP)和视觉的结合,这几年取得了很多进展,特别是聊天机器人等相关的实际需求,驱动着VQA等技术都有较大的进展。尤其是基于图的方法和视觉结合在一起可能会越来越热。以知识图谱为例,如果知道一些先验知识,知道一些知识图谱的话,可能会更好的去理解图像或者视频。例如,给定一幅图像,里面有一只猫和一个鱼缸,猫用爪子抱住了鱼缸,还盯着鱼缸里面的鱼,如果我们知道知识图谱里猫和鱼的关系, 我们就能很好的描述出猫想吃鱼缸里的鱼,从而更好的帮助视觉理解图像或视频里目标和目标之间的关系。所以说,我觉得基于图或图谱的方法和视觉结合在一起未来几年会有更大的发展。

第二方面,我觉得三维视觉会继续快速发展。从前两年开始冒头,到现在已经较为火爆,不仅仅局限于三维场景重构等领域,最近基于三维视觉的检测与分割等都有一些优秀的工作涌现。随着基于各种各样的嵌入式设备和手机端的需求,像华为手机已经有三个背面的摄像头,甚至多个摄像头(它的三个摄像头的定义,一个是超广角的,一个是广角的,另外一个是高精度的摄像头,不同的分辨率,可以更多的去模仿人的视觉方式)。由于人观测世界本身是三维的,所以移动端的这种大量的应用会牵引着三维视觉在这方面越来越走向更深入的发展。

第三方面,最初我们提到深度学习时,通常都会说手工设计的特征(handcrafted feature)有各种各样的不好,而深度学习是一个端到端的网络。实际上,深度学习的网络结构也是手工设计的(handcrafted)。目前,网络结构搜索NAS兴起之后,我觉得在这方面可能会有更多的一些改善,能够把一些常规的操作,包括一些常规的模块都融入进去,来不断优化网络结构而不是手工设计(handcrafted design)。我觉得未来几年在这方面,甚至包括网络结构的压缩和裁剪方面都会有更多的进步。

第四方面,深度学习兴起之后,我们看到诞生了一大堆的数据集,并且都是有ground truth标注的数据,在其驱动下,深度网络达到了一个比较好的性能,目前绝大多数的数据集在性能方面基本上也趋于饱和了,但是距离实际问题仍然有较大的距离。另一方面,人对世界的认知基本都是小样本学习的结果,和目前的大数据驱动的模式不太一样。所以能否将当前大数据驱动的方式和人参与的方式结合起来?现在也有很多这样的论文来研究人主动参与的或者是human in the loop的学习方式,可以把人对ground truth的主动标记结合起来,引导快速的学习,甚至把性能提高到一个更高的高度。

第五方面,视频理解在前几年开始有初步的发展,特别是到这几年有更多的需求和深入的趋势。因为现在基于图像的所有任务做到一定程度之后可能都做不动了,或者说没有更多的花样了,那么对视频的各种理解越来越多,包括视频摘要、视频场景分类、广告识别、台标识别等等,很多这方面的应用,我觉得未来几年会有更长足的发展。

我觉得在主题(topic)方面,未来会有更多的发展领域。随着刚才陈老师说到野蛮人的时代来了,大家参与视觉研究的热情很高,不光是学术界,产业界对这种需求也是非常巨大的。因此我觉得目前深度学习领域,视觉会在各个行业纵深发展。举个例子,这两天有一个公司提出这样的一个需求,即鞋印踩上去之后,希望能识别是哪个犯罪嫌疑人来踩的,这个就是足迹识别。进一步,他们想通过这个足迹来判断这个鞋的鞋面是什么样的,是什么牌子的。然后通过这些线索进而去库里搜索比对,搜索完了之后,再去视频里面去找犯罪嫌疑人,即穿这种鞋的人到底是谁。这个过程中,一步一步的从源头开始到后面,形成了一系列的视觉问题,行业的这种纵深发展需求是无限巨大的。视觉里面还有很多之前没有想到的事情在不断进步,两天前我参加了工业机器人展,看到有一个捡包裹的机器人。我们都知道快递小哥要送了一大堆包裹,各种各样的包裹都有,能否在包裹车拉来一车包裹后,让机器人去分类呢?我在展会上看到就有这么个机器人,它会自动的去识别是什么样的包裹,而且知道它的三维的曲面是怎么样,因为包裹放的角度都完全不同,它会调整机械臂,适应包裹的三维曲面的法线方向,去吸附它。我感觉在不同行业实际需求下,像分割、三维建模等视觉技术都会快速在各个行业里得到深入的发展。

另外,我觉得在医疗图像方面也会有很大的进展。医疗图像现在更多的是各个疾病的检测。昨天跟一个医疗单位在一起交流,他们提供了一个很大的平台,它的最终目标是通过病人的不同模态的信息,来最后综合判断病人到底是什么样的病。不仅仅是关注医学影像信息的,还有一些其他的一些检查结果,其实是一个跨模态的融合,包括图像标注、病案标注等等,他们都使得医疗图像未来和视觉的结合会越来越紧密。

目前5G不光是速度快容量大,它其实给计算机视觉AI带来了一个更广阔的前景,特别是无人车方面,刚才几位也提到了三维的地图等。跟中国移动交流了之后,发现他们的高精度地图,可以通过5G带宽实时传输,是可以看到马路崖子这种厘米级的精细度。所以我觉得5G+AI会为我们视觉相关领域的发展带来巨大的机会。以上就是我对未来5-10年视觉发展趋势的一些理解。

  1. 刘烨斌 我主要围绕三维视觉、虚拟现实和人工智能的发展谈点想法。虚拟现实是2016年火了之后一直发展比较平稳。2018年习总书记有过关于虚拟现实的重要性的指示,虚拟现实技术改变了未来的交互方式,主要是这种人与环境、人与人之间的交互方式可能会变得更加自然简单,并且取代键盘、手机触屏等现有的功能。

三维视觉的趋势是做视觉信息的重构,提供三维的内容给虚拟现实,这个是三维重建,三维虚拟现实通过真实渲染能够产生很多数据,为视觉问题服务。很多视觉问题皆有数据驱动,数据如何得来,越来越多的部分时通过三维引擎来得到。计算机视觉的研究对象有好几类,室外的、室内的、包括人体人脸还有手,还有一些医学和生命对象。以人为本是计算机视觉的核心,所以我主要以人作为视觉研究对象,举例说明计算机视觉的发展趋势。

从人为研究对象的角度,虚拟现实有三个目标,也即三个I,一个Immersion,一个Interaction,一个Imagination。三者都是虚拟人(AI、机器等)和真实人之间的作用关系。首先,虚拟人在视觉外观上是真实的,未来的虚拟人不管是真实做出来的机器人还是存储在计算机中的,都有逼近真人的发展趋势,使得交互更加友好。而这个目标,本质上就是人体的三维重建。第二个要素是人机的交互,虚拟人一定要能感知真实人的行为,包括手势识别,行为识别,情绪等这样的一些理解。最后,虚拟人需要对场景有反应,能够智能化,他能够根据你的行为智能地做下一步的处理,保证产生一个真实的虚拟人。

总体来说,虚拟现实的智能建模技术被列为新一代人工智能发展规划里的八大关键共性技术,重点突破虚拟对象智能的行为建模技术,提升虚拟现实中智能对象行为的社会性、多样性、交互逼真性,实现虚拟现实和增强现实等技术与人工智能的有机结合和高效互动。上述定义中的重点是行为建模,行为必须是接近人的智能的行为,才能有交互的逼真性等等。围绕这个人体的建模,目前的目标一个是要精准的重建,第二是要规模化的采集,第三是要便携式(手机单图像也能做),第四是速度足够快,能够响应交互的要求,第五就是现在一个大的发展趋势,建模的结果含有语义信息,即语义化建模,包括服装,人脸,头发等。最后第六就是智能生成,即重建结果能真实动画展示。现有的三维视觉重建技术很难满足这六个方面的要求,所以围绕这些目标还有很多研究需要做。

人体重建主要目的之一是全息通信。这里展示微软做的holoportation系统,它实现实时的,多相机下的人体动态三维重建。但这个系统的缺点是,它要求具有主动光,导致系统复杂度高,实时性和便捷性成为矛盾。实现实时高精度三维动态重建,也是未来的一个学术研究趋势。我们研制的单个深度相机实时的重建,虽然速度和便捷性都趋于完美,但精度还有待提高。单图像人体三维重建,虽然现在的质量还不算完美,但我觉得这是一个很实用的技术应用趋势。通过单个图像我们就可以来简便地重建它的三维模型,未来肯定是能大放光彩的。单图像人手动态三维重建,通过单个RGB监控相机就可以来实现实时性,可以看出三维重建输出了语义信息,已经取代了传统二维计算机视觉识别问题成为发展趋势。

服装产业占据国民生产总值的6%,数字化服装是一个非常重要的计算机视觉应用之地。这个是展示我们最新做的一些事情,通过单个视频,可以网上的视频,就能通过语义的建模来实现比较高质量的服装三维建模,对一些VR、AR都可以应用,它是通过对人体和服装的解耦,语义信息的加入,包括光照和纹理的解耦来实现。这种东西未来可以产生一些应用,包括改变体型,包括增强现实的模拟,右边就是一个互联网视频的重构,它可以改变服装的颜色等等。我觉得这种便携实时的三维重建的趋势就是从低层次的三维建模,包括体素的、网格的,逐渐走向高层次的三维建模,包括部件级的重建、物理信息分离、感知物理动力学、特征空间的提取。这些高维信息能够智能地建模和生成,响应环境,控制和预测。包括图形学里做的一些研究,好玩的比如能让一个人去动的虚拟对象的这种物理的约束,包括我们自己去爬山这种增强现实的技术也会引入进来,把物理、智能响应引入进来。

最后再谈谈更有广泛意义的一些动态三维重建问题。例如,医疗方面的比如外科手术的术野场景的三维感知,就是个非刚性复杂动态场景的三维建模问题。这是展示肝脏手术的视频,能够动态跟踪它的形状,三维扫描的CT可以在动态的场景下实时非刚性映射,辅助医疗和手术。还有就是在生命科学领域的动物行为三维重建,我觉得动物是未来视觉的一个很大的可以应用的点,我们叫计算行为学,也叫神经行为学。它研究的是行为跟神经活动的映射关系,通过采集动物行为数据来进行分析。行为学上对人进行分析非常难,因为人的基因差别非常大。但对于动物来说,可以做到每个小鼠基因都是一样的,像譬如在猪、猴子上也比较容易控制一些其他的差别的因素,所以对医疗,包括基因控制都会有帮助。在Nature子刊、Nature methods、Neural Science上都有一些相关的文章。它这里面其实有很多问题,包括群体对象自然环境下的交互,非刚性的捕捉,高层语义检测,互遮挡三维恢复,时间序列分析,有很多研究发表在Nature上。动物行为三维重建研究趋势就是希望动物更加自由地在实验环境里去生活,被记录,药物干预后提早发现行为差别。这样的研究还是很多的,包括可以提取维度更高的特征。我们也是在做这样一些研究,这里面有四个小猪,有两个是有渐冻症的,我们通过多视点拍摄,希望重构三维小猪的动作,通过重建动作来识别渐冻症小猪的行为特点,对未来的基因调控和药物治疗带来帮助。

  1. 章国锋 几位老师已经从计算机视觉大的层面对未来5-10年发展趋势做了展望,我从我熟悉的三维视觉和AR方面对未来5-10年的发展趋势发表一下自己的看法。

我的研究方向主要是SLAM,所以我就先从SLAM的角度做一些发展趋势的展望。我们都知道视觉SLAM是很依赖特征的,未来SLAM技术的发展趋势必然会从以前的底层特征比如点、线、面,向高层特征比如语义、文字、物体等趋势发展。并且,现在已经有一些提取运动规律的工作比如人的步态规律、机器人和无人车的运动规则等等,来进一步提高定位的稳定性。

有一个趋势是朝着多传感器融合的方向发展,其实每个传感器都有着它的优点和缺点,那么最好的方法就是把这些传感器的信息都融合起来,比如说随着深度相机的流行,一些手机上都安装了深度摄像头,还有Wifi、蓝牙、地磁信号等等,把这些信号都融合起来肯定可以提升定位的稳定性。未来还会有更多类型的传感器出现,比如这几年新出来的事件相机、偏振相机,相信未来5-10年还会有一些新的传感器出来。通过多传感器融合,我相信SLAM技术会做的越来越精准和鲁棒。

还有一个趋势就是随着5G时代的到来SLAM会朝着云和端结合的趋势发展,比如说现在高精度地图的构建是放在云上,并且支持动态的更新。这就很自然地涉及到移动端上的SLAM和云上的高精度地图如何做紧耦合,如何利用语义地图的信息来更好地定位,不同终端如何协同来做SLAM。

现在主要是深度学习的时代,对于SLAM来说,目前已有不少基于深度学习的工作,相信未来还会有更多这方面的工作涌现出来,比如如何学习一个更好的特征,如何学习更好的策略去解决SLAM中手写规则的困境,可能还会有做得很好的端到端的位姿学习。还有一个非常重要的就是语义信息的融合,比如说,结构的信息怎么跟语义信息做更好的融合,就像人眼一样看世界。我觉得这是未来的一个发展趋势。

以上是关于SLAM方面的。然后,三维重建,刘老师前面已经讨论得很多了,尤其是动态场景的重建,我这里稍微再做一点补充。我觉得未来物体的三维扫描方面,一些便携式、移动式的RGBD传感器会越来越流行,比如说基于结构光和ToF的深度传感器,未来我相信还会有一些新的传感器出现,可以帮助实现实时高效的三维重建。这里重建的不只是几何和纹理,还包括材质、语义等等。基于照片/视频的三维重建技术未来几年也还会有一些进展,比如实现更高的几何精度和纹理,能得到更细粒度的语义,并且结合分布式平台的算力实现更高效的重建。

在大规模场景的三维扫描方面,目前基于相机拍摄的视频或者照片已经可以做到城市级场景的三维重建。一般都是通过无人机航拍,然后重建出来。如果进一步结合深度传感器(比如Lidar),相信可以实现更高精度的场景构建。再结合分布式平台的计算能力,实现整个城市甚至整个地球的完整三维地图的重建将不是问题。当然只是静态场景的重建还不算太难,更难的是怎么实现动态物体的重建和场景的动态更新,因为真实的世界不是静态的,而是动态变化的。我觉得未来可能会通过相对低成本比如多传感器融合的方式来实现四维的场景地图的动态更新。包括前面讲的通过三维扫描获得的物体模型可以注册到真实世界的三维地图中,来实现三维信息的共享和传递。

然后,我想谈一下识别和重建的关系。识别和重建未来5到10年会往更深层次的融合。目前三维重建基本上是bottom-up的方式,对先验知识的利用不够充分,未来5-10年可能会诞生top-down的方式,比如说先识别后重建,或者两者同步进行。识别能够提供更高层次的结构先验,反过来重建能够帮助做更好的物体识别,因此未来会更加紧密的融合。另外,也还需要深度学习和几何优化算法的融合,才能最终构建出兼具几何外观、语义信息、结构化的、可动态更新的3D场景表示。

另外,因为我本人一直在做AR方面的应用,所以也想谈一下关于AR/VR、AI和三维视觉协同发展的趋势。其实AR主要是AI和三维视觉的应用。这三者如果能够紧密协同发展,那么我相信未来五到十年就可以实现一个地球级的现实世界的数字化。左边这个图是华为前不久提出的Cyberverse数字现实技术,它主要是通过相机、Lidar等传感器对真实世界进行扫描并构建高精度地图,然后基于高精度地图来实现室内外精准的定位和导航以及各种AR效果。Cyberverse实际上也不是一个完全新的概念,Magic Leap在2018年就提出过类似的概念Magicverse,旨在将大规模物理世界和数字世界持续地融合在一起。如右图所示,Magicverse包括好几个层,主要两种类型,一类是叫做基础层(包含物理世界和数字世界),还有一类叫空间应用层。基础层最底下是物理世界,然后在物理世界上构造一个对应的数字世界,然后再上面就是空间应用层,包括流动性、能源与水、健康与保健、通讯、娱乐等。

要实现这样一个数字化的现实世界,最关键的一点就是对物理世界进行三维数字化,也就是如何对高精度地图进行采集、构建和更新。我相信未来必然是朝着多模态、多传感器采集和融合的方式发展,因为每个传感器都有着它的优点和缺点,需要融合互补。这里最难的问题可能是怎么进行动态更新。我相信众包式的采集和更新是实现这个目标的有效方式,可以实现低成本、高频次的更新。高精度地图除了三维还应该包括语义信息,因此语义信息的提取也是非常重要的,而且需要满足不同应用的语义信息,比如说定位、AR/VR的展示、行为分析等等。这就要实现不同粒度语义信息的提取,这里面的粒度可以大到整个商场,再到一个门店,再小一点就是一个商品。除了物理世界的三维数字化,还需要对人的行为进行数字化,运动行为、消费的行为、社交行为等等。

对于这样构建的人的行为也好、三维空间也好,再结合SLAM、AR技术,我们可以实现地球级的AR应用。当然,这里首先需要解决云端的高精度地图怎么与终端SLAM紧耦合,这样才能够实现长时间大范围的精准定位和高品质虚实融合。松耦合模式会有一些缺陷,误差累积会很快,稳定性也不够好。基于这样的一种方式,我们可以实现室内外的分米级甚至到厘米级的定位和导航。

另外,我们知道5G时代很快就要到来了。目前的AR计算还主要是在终端,比如手机、AR眼镜等。未来有5G的情况下很多计算都可以放到云或边上,对终端的计算要求相对弱化,终端未来更多的是提供数据采集、连接和显示的能力。因为有云端算力的加持,高品质的AR效果可以得以实现,比如高逼真的物理效果模拟,准确的遮挡效果和虚实交互,精准的光照估计和电影级的真实感绘制与虚实融合效果就成为可能。在5G时代,一方面传输速度非常快,另一方面有云端算力加持,未来应用APP甚至都不要预装,我们打开一个APP就像在浏览器上输入网址或电视机上切换频道一样便捷。

以上是我对三维视觉和AR方面未来发展趋势的看法,供大家参考。

专家讨论发言 谢晓华

我感觉我们是不是忽略了一点,就是硬件发展。例如我们之前做超分辨率,做了很多,但是后来高清相机一出来,很多工作就白做了。那会不会在未来的十年范围内视觉传感器这一块会有比较大的突破,然后刚才提到的一些工作就没有必要去做了。

林宙辰

我想说一说什么样的计算体系适合做计算机视觉?现在我们都是基于冯诺依曼体系,但是人的视觉处理过程跟冯诺依曼体系有很大的差别。如果是在新型的计算平台上面,是不是很多计算机视觉的问题能更好或更高效的解决,我觉得是可以探讨的。另外一个,我赞成主动视觉和在线学习。我觉得现在的视觉系统触碰到了一点是,每个人都是from scratch,这样的话精力有限你就只能做一个非常简单的任务。我觉得将来可以做一个像wiki一样的项目,全世界都可以贡献,这样的话大家都在共同构建一个统一的系统,而且这个系统可以利用网络上的所有数据,可以自我进化(evolution)。然后这个系统大家都可以公用,这样就可以解决每个人的系统不停的从头学习的问题,因为单个人做的话只能做很小的一部分。

林倞

我想谈一谈关于benchmark或者关于AI的评价系统或者CV评价系统的好坏的基准。因为我认为我们很多的研究是受这个基准所驱动的,或者说是跟这个benchmark是相互驱动的。现在CV的趋势是融合、协同等,那么未来我们可能会需要一种新的评价体系来看CV的状况,可能不需要在一个特别的识别问题或者分割问题上达到特别高的精度,但是我们同时接入理解、分析、可解释性等,这样才能评价一个AI或者CV系统的鲁棒性,更像人一样的而不是把它归类为一个分类问题或者重建问题,我觉得这个可能是我们要很具体的去讨论和去发现的问题。

山世光

我们讨论十年后视觉可以发展到一个什么样的水平,可是我们并没有定义清楚,我们该如何从总体上度量视觉智能的进步,比如说现在视觉智能水平是60分,十年后我们可以做到80分,这个没有明确的标准。包括什么是视觉理解、图像理解,怎么定义呢?比如我们做人脸识别,很清楚,就是以某个数据库上的识别率为准。可是作为一个general的视觉我们好像没有这样的一个标准。

另外,作为一个标准的benchmark的角度来说的话,是不是人的视觉也是分两种,一种是通用的视觉,一种是专用的视觉。比如我们普通人看不懂医疗影像但专业医师就可以,但是我们都有通用的视觉的能力。这两类视觉实现的路径是一样的还是不一样的?

还有一个就是刚才提到的十年后我们可能把地球都数字化了,但是这个数字话不见得是个简单的数字化,比如是地图化的,那地图化的话对我们做视觉的有什么样的帮助呢?我觉得是不是类似于出现了一个视觉智能测试的“靶场”,我们的很多东西都可以在这个“靶场”里去测试。例如很多做自动驾驶的系统初步的训练都是用的合成的模拟数据。那么也许我们有了一个很好的关于地球的数字化模拟的时候,我们就有了一个很好的视觉的“靶场”,这个“靶场”既可以做训练也可以做测试。

此外,要不要做视觉常识?大家都在说知识,我觉得知识这个体系如果没有常识,感觉有些空中楼阁。我们做视觉先得有视觉常识,有常识才有可能有所谓的理解,我不知道是否正确,我觉得这个问题可以讨论。

陈熙霖

关于理解的评价问题,我们可以想想人是怎么做的。对于人类形成体系的知识我们确实有benchmark,确实有考题。可是对人类探索中的知识是没有考题的。大家理解的知识最后形成一个公共认可的交集,最后逐步拓展。所以,我个人认为在未来的推动理解的研究中,benchmark不能没有,但是不能唯Benchmark。如果说过去近30年中Benchmark推动了计算机视觉的发展,今天可能成为束缚了计算机视觉发展的一个因素。我经常跟学生为此争论,一些学生认为离开可评测数据集的工作就不是研究。而对真正智能的研究可能就是没有Benchmark——没有最聪明,只有更聪明。对于场景理解一类的任务而言,一个机器可能发掘出100组关系,另一个机器可能发掘出300组关系,那后者的理解能力可能就超越了前者,如果前者的关系是后者的真子集,那后者就一定具有更强的理解能力。当然更多的是两者可能具有互补性,如同人类的三人行必有我师。

第二件事情是说通用视觉与专用视觉,我的观点是对于医疗判读这类的所谓专用视觉其实远远超越了视觉本身,它不仅仅是视觉,医生的判断是在视觉现象基础上的知识/逻辑推理。

胡占义

这个观点我有点不大同意。我最近十多年一直在研究生物视觉,视觉绝不是说就是感知,视觉包含认知。仅仅视觉物体识别这个具体问题,人类就有约三分之一的大脑皮层参与。当然,某个大脑皮层区域参与视觉问题,绝不能说该皮层就是视觉皮层。大脑的大多数高级皮层,都在于加工多种感觉信息融合后的信息,进行认知决策和行为规划。所以说视觉问题,它涉及真个大脑,包括皮层和皮下组织的联合加工,绝不是完全由大脑的视觉皮层完成。视觉皮层是指主要对视觉信息进行加工的皮层,很多皮层参与视觉信息加工,但不是视觉皮层。

我先说第一个观点,人的视觉和计算机视觉是有区别的,如果说把人类视觉的脑加工机制完全解释清楚,我觉得和搞清楚宇宙起源的难度没有区别,我研究了差不多十五六年生物视觉,据我所知,神经科学领域目前对视觉V1区研究的比较清楚,V2区已不太清楚,更不用后面的V4和IT区,以及前额叶(PFC)等高级皮层。视觉问题处理基本涉及到大脑皮层的各个区域。所以说研究计算机视觉我觉得我们要弄清楚到底什么是计算机视觉,什么是计算机视觉的核心科学问题,我们不能够把什么东西都往上加。我觉得我们要好好讨论讨论,五到十年内我们到底主要是研究视觉感知还是视觉认知?如果研究视觉认知那是一万年的事。我目前不怎么研究计算机视觉了,我主要关注生物视觉了,也许我说的不对,但我觉得大家还是聚焦一些,目标可实现一些。

我们讨论五到十年的计算机视觉研究方向,不是指具体的算法,我们十年前也不知道深度学习能达到今天这样的一个高度,我们要讨论到底哪些方向是值得研究的,我自己觉得有三个需要关注的方向:1.基于神经生理的计算机视觉,估计在五到十年以内是一个重大方向;2.视频理解;3.涉及中国特色的全球战略相关的视觉研究:如卫星数据理解(全球战略),深海水下视觉信息处理(深海战略)。

纪荣嵘

我自己觉得我从博士毕业到现在大概10年的时间,我认为计算机视觉是远远超过了我当时读书时的任何方向,比如说自然语言理解,信息检索等等。我觉得一个重要的原因是深度学习带来的收获。但另一个方面,我们的这些系统太大太厚重,有没有可能把这个系统做的小一些,做的开销更小一些,这里面有几个维度。大家能马上想到的维度就是把系统做小,做小就可以把它放到端上,放到嵌入式设备上。第二个就是把系统做快,现在自动驾驶或者端上的设备的计算,有可能需要系统处理数据要远远快于实时。

第三点,现在我们很多时候都是在做单点的系统,每个摄像机执行的功能都是一个完整的闭环,花了很多的计算代价做了很多重复的事情,未来的视觉系统有没有可能由点到面进行大范围系统之间的协同。就是说有没有可能由专到广的,为什么是由专到广,现在每个模型只能解决一个任务,为了解决目标识别用的是目标识别的模型,为了解决语义分割用的是语义分割的模型,为了解决人脸而用人脸的模型,我觉得我们的人脑并没有分得那么清楚。one by one或者 1 v 1的我个人感觉太消耗资源了,有没有可能有一种更灵活的机制,网络结构可以由不同的形式组合在一起,比如说一套模型的backbone,它往上的话既可以做识别又可以做分割还可以检索,还可以做相关的理解。这样的话就可以把整个计算量给降下来。我相信人类进化到现在这个阶段,我们用我们的大脑实现了多任务的,高效能的,并行而且只占用极小的存储开销,我们每天只用吃三碗米饭,我们能完成这个计算机系统消耗多少的计算量来完成的事情。

第四个观点,我觉得我们的系统现在“吃”数据“吃”的太厉害。我觉得我们人类自身真的没有用到这么多的数据进行学习,我们用了大量的数据复用,比如说我识别消防车,只需要在车子上加一些特殊的部件,我就能识别消防车,我们人是很智能的。但是我们现在的计算机系统太吃这些硬性的资源,所以我觉得在计算资源的消耗上和训练数据消耗上我们也应该探索更多的机制。

然后,从我自己的感受来说,过去的时间我们看到世界往前发展,我特别希望未来的五到十年里面,计算机视觉的发展是由我们中国的学者去引领的,因为我们现在有巨量的市场,这个市场有我们能马上可以看到的技术痛点,这痛点就在我们身边,应该是我们来做,而不是让外国人来做我们的痛点,我们应该去引领它,所以我觉得未来的五到十年有很多是我们这些中国计算机视觉的学者应该去做的事情。

林宙辰

在手机上要越做越小,我觉得这不是正确的方向。将来的视觉系统应该越做越大,不是越做越小。所有的运算通过5G放在云上面运算是未来的一个趋势。我们大家都在云端上建立一个大系统,这样的话能够解决多样性的问题。因为要用一个小系统来解决各种各样的问题,我觉得这个概率上讲是不可能的,就是要建立一个跟人脑一样复杂的一个系统,它才能够解决各式各样的问题,这个系统肯定只能放在云上面,手机端愿意多算就多,少算就少算,不要把所有的计算都挤到一个小的手机上面来。

纪荣嵘

我觉得不一定完全正确。我觉得端上可以做一些轻量级的计算,云上做更重量的计算。而且端上的计算可以使数据的传输由重量级变轻量级。比如说原来传图像,现在可以只传特征,原来要传所有的区域,现在只要传特定的区域。因为手机只用作摄像设备感觉太浪费了,手机其实是一个很好的计算设备。

林宙辰

我们并不矛盾。我是说想在手机上解决所有的问题这一点我是反对的。一开始你说要在手机上做小网络这个东西,肯定是越小功能越差。

胡占义

对于这个问题我提个建议,5G对我们计算机视觉影响有多大,其实就是小终端和大终端的问题。如果5G网络很快,终端干脆就可以很小,不需要在这里处理,直接放到云上。我觉得5G对计算机视觉的影响确实要好好理解。

王亦洲

你俩说的没有矛盾,在专业任务上一定要压缩。处理是与任务相关的,只要满足任务的需求就行。视觉是一个ill-defined problem。什么是视觉这个概念太大了,但如果局限到图像,又太小了。所以怎么去把握它呢?我们丢这个阵地,就丢在了问题的复杂度上面。现在已经被深度学习占领了,我们再漂亮的理论、性能都不行。 然后我们丢在哪儿了呢?视觉问题是不是深度学习就解决了?视觉并不仅仅是一个学习问题,刚才说视觉可以很大,它可以是个认知的问题,top-down、bottom-up、然后各种任务,我们定义的视觉问题的复杂度不够,系统的复杂度也不够。所以我们要把系统的复杂度给加上去,把任务的复杂度也加上去,但是在每个具体的专项的任务上面, 我们要尽量让它简洁(compact), 让它适合于任务(fit for task)就够, 所以怎么去拿回这个阵地,我觉得要在这两方面,复杂度上面加大,然后才能够有可能把这个视觉的东西给拿回来。但视觉其实不单单是视觉问题,应该是视觉主导的任务完成的一个问题。所以,以后CVPR它有没有存在的意义,或者说是不是还是那个趋之若鹜的东西都不一定。

山世光

我们值得讨论的问题是,怎么撇清计算机视觉与机器学习的关系?我们在未来几年是不是就认怂了,是不是计算机视觉的问题就是机器学习的问题。这个我觉得我们年轻人还是特别困惑,比如说有什么问题是机器学习肯定搞不定,只能靠计算机视觉理论和方法来去搞定的呢?

陈熙霖

是现在很多东西都被划到机器学习了。可以对比一下30年前机器学习的书和30年前模式识别的书,再拿今天机器学习和模式识别的书,看差别就行。

胡占义

我觉得机器学习这个东西,是一种手段,它可以用于计算机视觉,也可以用于自然语言处理。模式识别和数学没有区别,我比较理想,我觉得一个是一种解释手段,一个是说要解决什么科学问题。

王井东

接着刚才山老师提到这个问题。现在计算机视觉这么火,有多少是机器学习能做出来的东西。像alexnet也是做视觉问题,其实根本没必要担心。我自己也做过机器学习,可以举个例子,早先做过加速、大规模等,在Matlab上面做,这怎么能证明这是个大规模的问题,所以说同样根本不用担心这个问题。

刚才讨论到一个问题,就是说计算机视觉5到10年怎么走。现在遇到一个状况,不管是中国还是美国,今年年视觉方向的工作机会(opening)特别少,从2012起视觉火了8年,应该怎么继续走。计算机行业外的人给予CV很高的期望,比如超越人类。其实这件事情不靠谱,根本没有超越人类。但是不做计算机视觉的人总觉得计算机视觉的人应该做些什么东西。但是现在到这个阶段,也许这跟当年神经网络一样,像过街老鼠一样,说计算机视觉的人吹牛皮。其实不是我们吹得,是别人吹的。我们要思考,我们视觉如果继续往前走,科学研究方面是一个问题,另一方面是如何去得到持续关注真正做一些能够work的系统出来。尽管我们今天已经在很多方面做得不错,但坦白来讲还没真正work。计算机视觉是不是应该纯粹从视觉的角度解决,其实多模态是一个很好的方向,单单靠视觉这一点,在监控系统里面还是很大的一个问题。从方向上来讲我比较看好多模态这个方向。

王涛

关于未来计算机视觉发展的趋势很多。我感觉一个最重要的趋势应该是主动视觉。Imagenet竞赛能识别很多的物体,但是图像分类真正在实际场景中就不管用。真正管用的是基于物体检测,然后再进行识别的像人脸识别这种技术。为什么人脸识别成功了,图像分类系统还不成熟。输入一张图像,你必须得按不同的区域不同的粒度进行分析,比如在会场我们拍张照片,识别人,那我们去数人头。但是如果要识别投影仪设备,必须定位到这个投影仪图像才能找到。第二个问题是投影仪的信息有多种层次,比如说有人想知道牌子,那你必须再细看到那个Logo,但是另外有人想知道怎么操作这个投影仪,那你必须得识别它的各种接口,你才能把它的功能识别出来。我感觉最近的Imagenet和ActivityNet行为识别竞赛,大家现在做的这两类竞赛都是用图像分类的竞赛做。用图像分类做竞赛,实际中都不能用,为什么呢?它没有像人一样主动去识别,你得看到这个人,看到那个人真正发生动作的那一帧,这才能把它识别出来,所以我感觉主动是非常重要的。

第二个,要有层次。层次就是不仅要识别出一些基本的要素,还要把里面的不同层次关系能够结构化的提取出来。我们实验发现把东西拿在一起学的效果会很差,但是如果把这个东西分成两个部分,先固定解码器学编码器,然后再固定编码器学解码器,系统就学出来了。我们的学习得有一些像搭积木一样的层次,先把基本的比如人脸、水杯、花识别出来,然后拍一张照片能把物体之间的关系给识别出来。

第三个,应该怎么研究。视觉研究很广,想要做成功,得针对具体的应用。人脸识别系统很成熟,但是用在自动驾驶上识别行人就不行,得一类一类来,在不同应用场景中,需要看到不同的数据和不同的性质。所以我认为针对具体应用,未来除了在深度学习基础上主动视觉,发挥层次融合推理应该是一个比较好的趋势。

胡占义

我觉得主动视觉很重要,但5-10年主动视觉不可能取得巨大进展。这涉及到生物里面反馈(feedback)的高层知识,但反馈很难短期内取得进展。关于视觉的目的1994年CVGIP组织了一个专刊,曾经有过一个辩论。从1994年到现在,可以说主动视觉没有任何的进展。在生物神经系统里面有大量的反馈,但不知道反馈是什么东西。如果神经科学很难给出一点启示的话,那么我们计算机视觉就很难把它做成。这是我的一点个人观点。

王涛

我觉得以前主动视觉不成功是因为研究方法不对和技术限制。

胡占义

Recurrent有两个,一个是同层的抑制,一个是高层的反馈,而高层的反馈在生物视觉里面大家知道有大量的反馈,但是反馈的是什么东西还不清楚。所以说根据我的理解,我觉得3-5年内生物视觉很难有较大进展。

王亦洲

我补充一下,回到学习上,学习是视觉的核心。视觉其实是个伪问题,但学习是一个永恒的本质问题。没有学习,视觉存不存在都不太重要了。与其叫计算机视觉还不如叫computational visual intelligence. 视觉是一种智能,智能的核心是学习怎么去获得知识,反馈只是学习和推理的一个环节。学习是什么?是简单的模式识别,还是高级学习,这可能是学习下一步应该走的,给学习起一个俗的名字叫元学习,如果要和计算机视觉对应,我们叫元认知。核心就是学习,不搞学习是不行的。

杨睿刚

我觉得机器视觉与生物视觉应该有区别,不一定机器视觉要学习生物视觉。举个例子,比如说看全局我要大照片,然后看局部我要小照片,但是如果你有一个摄像头,可以一下子拍10亿像素,或者有一个摄像装置能把光场记录下来,那active learning与passive learning就没有区别了。这种硬件区别至少在二维图像上,将来我觉得十亿像素应该是很快到来的事情。

陈熙霖

这个地方我补充一句,这里的主动不仅指分辨率,其本质是通过主动的“行为”进行探索,从而达到有限资源的最大化利用。

杨睿刚

你说的是一种主动感知的explore,还有一种不改变环境不改变物体的。

陈熙霖

即使是不做改变,比如从一个角度看和从另一个角度看,光场相机并不解决这类问题,我们无法获得对象背后的光场。

杨睿刚

光场相机阵列。

林宙辰

杨睿刚的意思是说干脆把所有的信息都采集了,这个机制还是有点不一样。

王亦洲

主动学习有一个停机问题,有一个选择的问题。就是说,你所有信息都在这儿,你什么时候停下来,你决定采哪一块,这是最重要的。所以主动学习,它并不是你把所有东西都拍上去,你也得要选择。

杨睿刚

选择的问题肯定要在里面,但是现在做主动学习肯定涉及到机器人等问题,超出了计算机视觉的范畴。

王亦洲

所以就不要抱着计算机视觉了,这个就是我的意思。

胡占义

主动学习这里面有两个概念。第一个是要有探索和注视,否则的话就没有主动性。第二个是记忆,主动视觉是从生物来的概念。在计算机视觉里面,主动视觉这个概念太大了。

查红彬

我想这里可以将主动视觉与深度学习进行对比。深度学习的问题在于要有标注数据库,需要事先整理好的数据。而视觉系统在实际场景中工作时,需要自己选择对自己有用的样本。这样,将样本选择与视点选择,结构重构,计算优化等策略结合起来,就能有效地发挥其主动性,而不需要让人把所有的数据都收集好喂给它。

郑伟诗

学习对视觉很重要。Benchmark推动也束缚了目前计算机视觉的发展,ReID做到97%,大家就想不到该做什么,但问题本身并没解决。数据库太有限,采集的东西没有完全反映整个问题,比如说行人的遮挡问题,各种各样的问题。在有限数据的时候,学习可能不能完完全全地解决它。有限数据下的学习,有没有可能受到3D方面的启发?把一个人整个3D的信息,还有行人整个行为的3D信息都能捕捉到的话,我们就可以去掉开放环境下所受到的这些影响,然后我们就可以重构。像我们可以构造一个靶场,这个靶场很重要,无论我们做任何的系统都要做测试,但如果只在有限数据上或片面的数据上做测试的话,我们在真实应用的时候可能就会有受限。因此如果我们能够把3D这种因素嵌入到现在以2D图像为主导的计算机视觉里面的话,可能会对我们整个计算机视觉在未来3到5年的发展能有另外一个维度的推动作用。

那么为什么做3D?另外一件事情就是现在可能在全世界都在谈的数据隐私问题。数据采集的隐私问题越来越重要,如果你用的是一个虚拟的靶场的话,这种隐私问题就完全不存在。所以,在未来包括可能在国外人脸识别、行人识别,甚至一些行为识别都有可能会受到严重的法律因素的滞后的影响的话,那么我们更需要从3D的角度,从另外一个维度去考虑,是不是在这方面可以拓宽计算机视觉的发展方向,这是我的观点。

贾云得

我们做视觉很早了,早先把它作为一条小河,我们流那么多年,突然下大暴雨,现在是洪水猛兽(深度学习)来了。五年以后估计这个模式都过去了。我觉得那条河还会在。因为,从视网膜到视皮层这条通路在那摆着呢,非常高效。因此,还会有好多人研究,五年十年以后我们中国实验室做什么?肯定还是小河里面。

我看好两个方向。第一个是三维视觉,三维视觉不会很热,也不会很冷,会一直往下走。第二,就是胡老师说的视频理解。这个好几个老师也说了,多模态,就像我们看电影也是一样的,看会儿画面看字幕,看会儿字幕看画面,来回互相理解,现在好像挺热的。原来我们遇到的是数据-语义的鸿沟。后面我们在识别结果和意识间的鸿沟也会出现,一旦有鸿沟就变成热点,因为里边主观加的东西太多了。我觉得视频理解应该是一个热点。

鲁继文

我觉得我们现在用了很多机器学习的知识。下一步,我自己更愿意做一些特别的工作,就是从机器学习到机器推理。比如给你一幅图像,你一看就知道这个图像未来应该怎么样发展,但对于计算机再强的网络都不行。我觉得现在计算机视觉里面很多时候性能之所以好,是在于我们对这个问题的定义,在这种定义基础上已经基本上可以解决。现在我们可能要再去找一些更能够描述或者更能够匹配人类视觉能力的计算机视觉任务。现在比如说检测、分割、检索、识别,都是单独的视觉任务,这种单纯的视觉任务还是有点简单。当然有的老师可能有不同的观点,就是说他们的变化这种东西可能比较难。但实际上人的视觉更多的时候可能不是这样子的。所以,我觉得在计算机视觉里面一个很重要的问题是怎么样找到这样的任务,能够更好的与我们人类的视觉任务匹配起来,这样的任务既不能太难也不能太简单。这样的任务我觉得还需要我们多花时间去思考讨论,我自己也不知道是什么任务。

王亮

未来5到10年的CV发展趋势这个主题的主要目的是希望听听我们国内视觉界专家们的新见解。今天听了各位讲了很多,方方面面都有。如果说个趋势的话,每一个方面可能都会有一定的趋势,但大家的意见有不相同,也有相同的地方。这个主题的定位是希望通过这次的深度研讨梳理几个视觉领域中最重要的大家都认可的这样一个发展趋势,有不同的意见没有关系,而且这个讨论也是有交叉的。

查红彬

这种讨论我觉得挺好。讲一些发展趋势,然后大家能够有一些思想上的碰撞和火花。做视觉研究,大家在发展趋势上,如果有完全一样的看法会很奇怪。要整理出比较明确的发展趋势也很难。为什么呢? 谁要想做出很好的工作,他就应该有一些与别人不一样的看法,如果大家都是同样的看法,这事情就很难往下做。所以我觉得,我们更多的是通过交流各自的想法,启发我们自己能有一些新的思路,或者在我自己的这些想法上能找到一些更多的理由、依据,然后把这个事情做下去。所以我想通过这些讨论,更多的是咱们能不能将来在国际会议上,在研究成果方面,我们也有自己的一些特色在里边。到目前为止,我们写文章是在拼什么?就拼数据库测试上性能提高了百分之几,而且大多数是在别人方法上改进一下,然后做个实验说我提高了百分之多少。但是我们很少有说你的想法跟别人在什么地方不一样,然后你这个不一样的东西在某个地方用起来会有一些效果。一开始你可能效果会比较差,而且你也不容易轻松地打动别人,但是在你的带领之下很多人都会来做这个事情的时候就不一样了。所以我想说,能不能将来不是只盯着这个数据库上的数据去拼,而是有更多的比较好的创意出来。

山世光

是不是可以倡议建立一个只评价idea、方法原理,不评价在benchmark或者数据库上的好坏的审稿机制?

陈熙霖

胡老师刚才提到的1994年CVGIP组织的一个专刊中,当年提出了三个需要改进的方面,今天真正实现的只有一件——就是benchmark。那场讨论中说我们这个领域里的工作缺乏比较,自说自话,之后就产生了各种各样比较的数据集。所以我刚才有一句话,在过去近30年中Benchmark推动了计算机视觉研究的进步,就是指的那场讨论开始的。

查红彬

我同意你的观点。现在回过头来看看,计算机视觉研究了这么多年,也许就是在那些文章出来之后,我们再没有看到什么新的主意、新的理论出来了。在那之前百家齐放,好像有很多新的说法出来。在那个benchmark出来之后大家都在做同样的事情,最后整个领域就变得不怎么活跃了。

胡占义

我们既然研究计算机视觉,我建议大家读一读Marr的书。

卢湖川

刚才说到的benchmark,我觉得至少计算机视觉这个benchmark的存在,使得计算机视觉有别于纯粹的机器学习,而且特别是起到了该有的历史作用。现在大家对它的诟病最主要的原因就是它还是一个单一的benchmark。那只能说这个benchmark并不像人一样,那如果有人再去定一个更复杂的benchmark,它是多维的,也许这个benchmark就能够驱动下一个时代的发展,也许就能够完成像人一样的学习或者识别等等。我觉得benchmark本身并没有太大问题,因为人从小受教育的时候就是教他这是什么那是什么,只是人是一个综合的智能体。现在的benchmark如果再往更高的维度发展,也许能够有更好的收获。

杨睿刚

现在的benchmark太多了,哪些benchmark重要,哪些benchmark不重要,还有随之而来的各种各样的比赛,哪些是重要的,哪些不重要。在某种意义上是不是也跟大家说,我又拿了个世界第一,但可能这个世界第一里面只有十个人参加。那有没有一种方法可以有这样的一个更加好的量化机制,可以给benchmark一个benchmark。

王井东

Benchmark现在有个很大的问题是很多人做不了。Imagenet很多人做不了,那做不了从我们研究人员的角度来讲,就是文章可能出不去,这是一个可能不好的地方。 但从另外一个角度来讲benchmark挺重要的。视觉的任务目的很多,我们做视觉还有一个重要目的就是培养学生,那至于视觉培养学生这个功能可能是区别于其他的,比如Multimedia。Multimedia从培养学生的角度上我觉得是很好的。但它有个很大的缺点,是没有benchmark。从这个角度来讲benchmark还是需要的。只是现在审稿人对数据集的规模期望更大了,这对很多人来讲尤其是学校里面是很有挑战的,现在可能就少数几个公司比较强。这是我对benchmark的观点。

王亦洲

建议PRCV单开一个track,鼓励创新性。单开一个不看性能的track。

成为VIP会员查看完整内容
0
52
小贴士
相关资讯
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
14+阅读 · 2019年6月13日
【学科发展报告】计算机视觉
中国自动化学会
35+阅读 · 2018年10月12日
【综述】计算机视觉简介:历史、现状和发展趋势【可下载】
机器学习算法与Python学习
10+阅读 · 2018年9月21日
计算机视觉这一年:这是最全的一份CV技术报告
机器之心
4+阅读 · 2017年11月26日
【机器视觉】计算机视觉简介:历史、现状和发展趋势
【计算机视觉简介】历史、现状和发展趋势
GAN生成式对抗网络
5+阅读 · 2017年11月25日
【观点】计算机视觉:历史、现状和发展趋势|胡占义研究员
中国科学院自动化研究所
11+阅读 · 2017年11月21日
相关论文
Deformable Style Transfer
Sunnie S. Y. Kim,Nicholas Kolkin,Jason Salavon,Gregory Shakhnarovich
9+阅读 · 2020年3月24日
Aidan Hogan,Eva Blomqvist,Michael Cochez,Claudia d'Amato,Gerard de Melo,Claudio Gutierrez,José Emilio Labra Gayo,Sabrina Kirrane,Sebastian Neumaier,Axel Polleres,Roberto Navigli,Axel-Cyrille Ngonga Ngomo,Sabbir M. Rashid,Anisa Rula,Lukas Schmelzeisen,Juan Sequeda,Steffen Staab,Antoine Zimmermann
79+阅读 · 2020年3月4日
Compositional Generalization in Image Captioning
Mitja Nikolaus,Mostafa Abdou,Matthew Lamm,Rahul Aralikatte,Desmond Elliott
3+阅读 · 2019年9月16日
Progressive Pose Attention Transfer for Person Image Generation
Zhen Zhu,Tengteng Huang,Baoguang Shi,Miao Yu,Bofei Wang,Xiang Bai
4+阅读 · 2019年4月9日
Generative Graph Convolutional Network for Growing Graphs
Da Xu,Chuanwei Ruan,Kamiya Motwani,Evren Korpeoglu,Sushant Kumar,Kannan Achan
3+阅读 · 2019年3月6日
Adversarial Transfer Learning
Garrett Wilson,Diane J. Cook
10+阅读 · 2018年12月6日
Vikram Mullachery,Vishal Motwani
8+阅读 · 2018年5月13日
Henrique X. Goulart,Guilherme A. Wachs-Lopes
4+阅读 · 2018年2月28日
Tobias Ross,David Zimmerer,Anant Vemuri,Fabian Isensee,Sebastian Bodenstedt,Fabian Both,Philip Kessler,Martin Wagner,Beat Müller,Hannes Kenngott,Stefanie Speidel,Klaus Maier-Hein,Lena Maier-Hein
6+阅读 · 2018年1月26日
Top