性能提升趋饱和，图像复原研究遇瓶颈？左旺孟：仍大有可为｜极市学者专访

会员服务 ·

性能提升趋饱和，图像复原研究遇瓶颈？左旺孟：仍大有可为｜极市学者专访

2020 年 8 月 6 日 极市平台

极市学者专访｜第二期

“听大牛说说计算机视觉那些事儿”

本次专访，我们邀请到了哈尔滨工业大学计算机学院左旺孟教授，与我们分享计算机视觉学术研究的经历经验，科研学习的心得感悟，并共同探讨了计算机视觉图像复原、图像生成等领域的未来发展动向。

问题摘录

/ / 如果想学好计算机视觉，需要具备哪些素质？

读研和读博，有哪些需要思考的重要问题？ / /

/ / 如何拓宽研究面，并取得好的研究成果？

自EDSR到今年的RFANet，图像超分的PSNR指标提升仅为0.2dB。是否意味着图像超分已经达到饱和？是否还继续往下研究的必要性？ / /

/ / 自监督学习是一个有前景的发展方向，如果自监督学习和图像处理领域相结合，会解决哪些图像处理难题？

学者介绍

左旺孟

哈尔滨工业大学计算机学院教授、博士生导师。主要关注迁移学习和无监督学习及其在底层视觉、图像生成、视觉跟踪、物体检测和图像分类等领域的应用。在CVPR/ICCV/ECCV等顶级会议和T-PAMI/IJCV和IEEE Trans.等顶级期刊上发表论文100余篇。

计算机视觉学术研究之道

Topic1. 解决计算机问题之道

您印象最深的一段研究经历是什么？

在研究过程中，如何解决出现的难点？收获了怎样的成果？

左旺孟：在2015年，我们曾考虑做一个深度图像压缩方面的工作。由于深度图像压缩会涉及到特征的量化，导致反向传播的梯度要么是零，要么是无穷。当时觉得可以针对这个问题做一些工作。然而，直到2016年底，推特和NYU的两个新工作相继发表，我们才意识到，不但特征量化会导致梯度不能反向传播，实际上图像压缩中熵编码约束往往也需要在离散空间下计算。因而我们提出了一个显著性图模型，并结合二值化神经网络，针对熵编码束和特征量化分别进行松弛处理，为深度图像压缩网络的学习提供了一种新的思路。

现在再回顾这个工作，我们从2015年开始做，2016年底重新调整研究方案，2017年ICCV没中，一直到2018年CVPR才发表。虽然经历比较漫长，但印象和体会也更深些：有时候，虽然我们最初会选择从某个角度切入来做研究，但在做的过程中，往往会遇到意想不到的困难。而这些困难，反而是大家可以自己去思考、去分析和去解决的部分。与此同时，当本领域或者相关领域的研究取得新进展的时候，这往往也是一个比较好的契机——可以将之与自己之前思考连接起来。

Topic2. 成为优秀的计算机视觉学者

在本科、硕士两个阶段您修读的专业是材料学，是什么让您在博士阶段选择了计算机应用技术这一专业？

左旺孟：其实这个选择其实挺偶然的。当时有一个朋友从材料学转到了计算机专业，他建议我也转过来，然后我就稀里糊涂跟着转到了计算机学院。

但如果回头看的话，现在觉得计算机视觉可能还挺适合我的。因为这个领域个人发挥的余地相对比较大。不过随着数据量和算力的增加，大家的协作也越来越重要，但对个人能力还是会相对重视得多一些。

如果想学好计算机视觉，

需要具备哪些素质？

左旺孟：首先是要有一定的代码能力，起码要能对当下深度学习的框架有基本了解。在此基础上，还需要有数学相关的基础知识，比如矩阵分析、概率论、优化等。在这几点都能满足的情况下，要多看论文、多写代码。有了一定的技术基础后，原则上就可以尝试开展一些研究工作。另外，在做的过程中，要特别注意工作的创新性和严谨性的结合。有的学生可能想法很多，但不太擅于完整和严格地完成自己的想法，可能就会提醒他们一定要注意在切实可行的基础上去体现自己的开创性。但也有部分学生，数学基础和代码能力很强，却不太愿意主动思考，可能就要更注重创新能力的锻炼。

Topic3. 打造优秀计算机视觉研究团队

如何拓宽研究面，

并取得好的研究成果？

左旺孟：我倒是不觉得自己的研究面很宽，但可能会比较注意方法层面和应用层面之间的关联性。有时候方法层面想通了，就会思考这个方法在应用层面有哪些应用。如能在方法层面做到举一反三，就能更快地从一个任务迁移至另外一个任务。因此，有时候表面上看我们做了几个工作，但实际上我们关注和思考的其实只不过是方法层面上的一个点而已。

导致研究面有点宽的另一个原因可能是我会尊重学生的选择。虽然一般情况下希望学生做我比较熟悉的领域，但如果他们对某个方向特别感兴趣，并且学生也愿意自己去承担一定风险的话，我也会支持他们。这样的话，随着学生对这个方向越来越熟悉，我也会被慢慢地带入进去，逐渐也能从个人的角度出发给一些建议。

此外，在计算机视觉领域里，单独做一个方向往往比较难真正得到实际应用。如果想真正解决一个实际问题，也往往需要多了解几个方向。

读研和读博，

有哪些需要思考的重要问题？

左旺孟：刚开始，我会希望学生去选一个我比较熟悉的主题。如果出现什么问题，我也能参与进去，并给出一些具体建议。之后，会留意学生们在研究过程中能否产生自己的想法，以及能否设计出完整的实验方案。如果这些都没问题了的话，就会给他们较大的自由度，希望他们最后都能具备独立完成一个有价值的工作的能力。

在读研和读博的过程中，可能会更看重学生能力方面的成长，希望学生们通过读研读博，在某个领域能够独当一面。在学生素质方面，早期会比较看重学生的基本功，也包括和老师同学进行交流的能力。我比较担心的是那些平时什么也不说，直到遇到特别大的困难的时候才说出来的同学。因为大的困难往往是很多小困难累积的结果，单个小的困难一般都能解决和调整，累积成大的困难就比较难追溯和解决了。

计算机视觉归根到底还是一个偏应用的学科。所以，会鼓励学生们在某个领域发现真正有价值的问题，并从中找到合适的解决方案，尽可能锻炼将理论方法研究与现实问题进行结合的能力，通过理论方法研究推动现实问题的解决。

学术团队与工业团队之间

应该怎样合作？

左旺孟：我们做的还是比较偏研究一些，虽然也会配合公司去做些工作，但是真正的转化还是由公司完成的。现在工业界研发能力都很强，高校可能还是要以学生的成长为主，并在模型和方法层面做一些对研究和应用都有价值的工作。

另一方面，我们也愿意跟工业界多沟通交流。当计算机视觉发展比较迅猛的时候，大家都比较容易做出有价值的工作。但是当深度学习这波红利过了之后，问题可能就变成谁做的更“实”，谁能具体深入到场景和应用领域了。因此，如果多跟工业界保持交流沟通的话，也许会有助于发现在研究上值得继续关注的问题。

计算机视觉与图像处理的未来动向

Topic1. 图像复原、图像生成领域的未来发展

近期，大家对图像复原、图像生成等领域的关注度似乎有些下降，您对此有什么看法？

左旺孟：底层视觉和图像生成还是目前计算机视觉领域关注度比较高的方向。不过有些领域的关注度似乎有所下降。一个可能的原因是深度网络设计的红利正在变少。之前借助于网络结构的进步，许多问题的性能都能得到比较大的提升。但现在看来，以图像超分辨为例，去年最好的结果跟今年最好的结果相比，可能提升都只在零点几个dB以内。从这个角度来看，大家会觉得这个领域的发展似乎慢下来了。然而，图像复原在应用层面上还有很多问题没有解决。此外，现在很多研究都还是基于合成数据的，针对真实数据，很多问题解决得都还不是太好。

此外，图像复原和图像生成领域的发展和其他方向也有较大的相关性。在生成式对抗网络发展比较快的时候，就出现了许多基于生成式对抗网络的图像复原和图像生成方法。这几年自监督和网络架构搜索等方法进展较快，其中的不少成果也应该能对图像生成和图像复原的发展起到了一定的推动作用。

另外，图像复原受成像方式和传感器的影响很大。过去大家对图像复原方法的研究，都基于CMOS成像方式。但这几年出现的event相机和单光子成像等新的成像方式，也都会促进图像复原和图像生成的发展和进步。另外，从今年CVPR的投稿来看，图像复原和图像生成还是比较热门的研究方向。

总之，未来计算机视觉与图像处理在更实用和更具体的道路上应该还可以走得更远。

自EDSR到今年的RFANet，图像超分的PSNR指标提升仅为0.2dB。是否意味着图像超分已经达到饱和？是否还继续往下研究的必要性？

左旺孟：我觉得在合成数据上的性能饱和并不是问题，真正的问题在于图像超分、图像复原的这些问题有没有真正的被解决？比如盲超分、盲去噪、盲复原、盲去模糊这些实际问题。从这种角度来说，也许是这种采用在合成数据上的量化性能指标作为评估标准的做法的意义有值得商榷的地方。对图像超分辨来说，更有价值的问题可能是怎样能在真实的低分辨率图像上得到更好的超分辨图像。

不过现在也开始出现了一些解决方法，如结合具体的应用来采集低分辨率-高分辨率图像对。如果我们比较难采集到低分辨率-高分辨率图像对的话，怎么运用无监督或者自监督的方法来解决这个问题，就成了一个值得进一步深入的研究方向。比起以前，我们的确是处于一个接近能解决真实图像复原问题的时代。从这种角度来说，大部分这个方向的学者可能都不会选择在这个时候退出图像复原领域。

Topic2. 探索图像处理发展新方向

自监督学习是一个有前景的发展方向，如果自监督学习和图像处理领域相结合，会解决哪些图像处理难题？

左旺孟：现有的研究大多基于合成数据，当应用于真实数据时，性能很可能会有显著的下降。许多实际问题中虽然有许多高质量和低质量图像，但不能保证他们之间的对应性，所以就不能用监督学习的方式去训练网络。针对这个问题，大家前几年觉得生成式对抗网络可能会是一个可行的解决思路。这几年，大家又开始觉得自监督学习或许才是更好的方法。

对底层视觉问题的认识和理解或许才是解决不配对设置下深度网络学习的关键。我们今年ECCV也用自监督学习做了一个图像去噪的工作，虽然在学习方式上是自监督的，但模型设计上尽可能利用了图像和噪声的一些性质。例如，假设噪声都是随机且短程相关的，而图像则是长程相关的。总之，由于自监督没有用到数据的标注信息，如果设计得当，可能会有更强的泛化能力，也许对解决一些真实的图像复原问题会有帮助。就我个人而言，也许我们的思路在宏观上不可避免会受一些流行方法和概念的影响，但在具体研究中还是要尽可能注意一些细节和微观的东西。