【2021年度发展报告】视觉弱监督学习研究进展

会员服务 ·

【2021年度发展报告】视觉弱监督学习研究进展

2022 年 7 月 8 日 中国图象图形学学会CSIG

中国图象图形学学会和中国图象图形学报联合重磅发布2021年“图像图形学发展年度报告”综述专刊，学会15个专委会倾力之作15篇学科重要方向综述论文，梳理学科发展脉络全面展示研究现状、前沿、热点、趋势。

今日推荐综述专刊中“视觉弱监督学习研究进展”，该文由 中国图象图形学学会机器视觉专委会 组织撰写。‍‍‍‍‍‍‍‍

近年来，基于全监督学习的深度视觉理解网络取得了显著的性能提升。物体检测、语义和实例分割以及视频动作识别等任务的数据标注往往需要耗费大量的人力和时间成本，已成为限制广泛应用的一个关键因素。弱监督学习作为一种降低数据标注成本的有效方式，有望对缓解这一问题提供可行的解决方案，因而获得了较多的关注。

【论文信息】

题目：视觉弱监督学习研究进展

作者：任冬伟, 王旗龙, 魏云超, 孟德宇, 左旺孟

引用格式：任冬伟, 王旗龙, 魏云超, 孟德宇, 左旺孟. 2022. 视觉弱监督学习研究进展. 中国图象图形学报, 27(6): 1768-1798.[DOI: 10.11834/jig.220178]

点击文末“阅读原文”查看论文全文

【论文看点】

1）回顾通用弱监督学习模型，如多示例学习(MIL)和期望—最大化(EM)算法，针对物体检测和定位，从多示例学习、类注意力图机制等方面分别进行总结，重点回顾了自训练和监督形式转换等方法。

2）针对语义分割任务，根据不同粒度的弱监督形式，如边界框标注、图像级类别标注、线标注或点标注等，对语义分割研究进展进行总结分析。

3）针对视频动作识别，从电影脚本、动作序列、视频级类别标签和单帧标签等弱监督形式，对弱监督视频动作识别的模型与算法进行回顾，并讨论了各种弱监督形式在实际应用中的可行性。

在此基础上，进一步讨论视觉弱监督学习面临的挑战和发展趋势，旨在为相关研究提供参考。

【未来挑战】

随着网络架构的发展，以Transformer为代表的弱监督方法已在语义分割等任务上取得了较大的性能提升。然而，视觉弱监督学习模型的性能与全监督学习仍存在较大的差距。近年来兴起的自监督学习和大规模预训练模型也将为视觉弱监督学习带来新的挑战与机遇。动态开放环境下的实际应用中往往涉及多样化的任务和标注形式，多种任务视觉弱监督学习以及多种监督形式的结合和转换将显得尤为必要。

1）存在的问题和挑战。相对于全监督学习，视觉弱监督学习由于仅依靠弱标注，因而会面临局部聚焦，难以准确地挖掘出所有的物体和精确地定位物体。如何进一步缩小视觉弱监督学习与全监督学习的性能差异，并将其进一步应用于实际的视觉理解应用，仍然是未来视觉弱监督学习研究中亟待解决的问题。另外，当视觉弱监督学习应用于开放动态环境时，标注噪声和异常样本往往难以避免。如何利用开放环境的大量未标注数据或噪声数据，并有效抑制异常样本的不利影响，是视觉弱监督学习研究走向应用的过程中亟待解决的挑战。此外，弱监督学习并不是降低标注成本的唯一方式。视觉弱监督学习如何在与其他低标注成本学习方式的竞争中脱颖而出，或者结合其他方式形成更为有效的低标注成本学习解决方案，仍然是一个值得深入研究的问题。

2）视觉弱监督学习的发展趋势。模型性能的提升不仅依赖于视觉弱监督学习方法自身的进步，还需要考虑与现有数据集、任务和模型的结合问题。例如，受益于大规模预训练模型，利用知识迁移和蒸馏等方式将辅助数据集或更大的开放数据集的知识用以提升视觉弱监督学习性能。在目标检测与语义分割方向，已有工作尝试引入全监督辅助数据集，在保证辅助数据集与弱监督数据集无重合类别的情况下，通过知识蒸馏与迁移学习方法，借助辅助数据集上的知识来提升弱标注数据集上检测与分割的性能。近年来开始出现的CLIP 等视觉—语言大规模预训练模型也可以视为一种重要的知识来源，有助于大幅提升视觉弱监督学习性能。对于大量未标注样本，自监督学习已经开始展现出良好的学习和泛化性能，因而也有望与弱监督学习有机结合以取得更高的性能。此外，检测和分割任务具有较强的相关性，不同学习任务的结合也有望为提升弱监督学习性能提供新的研究思路。

当视觉弱监督学习应用于开放动态环境时，无标注样本、标注噪声和异常样本往往难以避免。为在开放环境下实现稳健的模型学习，需要发展更为有效的学习方法，能够在标注噪声和异常样本的情况下实现稳健的视觉弱监督学习，并充分利用无标注样本提升学习性能。此外，开放动态环境下的视觉弱监督学习往往涉及新类别的发现、增加和调整等。因而，需要结合视觉弱监督学习和连续学习，使得模型在学习和适应到新的类别时，在已有类别上仍然能够保持原有性能。另一方面，为适应开放动态环境，还需要发展开放域视觉弱监督学习方法，提升模型对未知类别的发现能力。

【作者简介】

任冬伟，哈尔滨工业大学副教授，主要研究方向为视频图像复原、物体检测。

E-mail: csdren@hit.edu.cn

左旺孟，通信作者，哈尔滨工业大学教授，主要研究方向为底层视觉、图像视频生成、图像分类、物体检测等。

E-mail：wmzuo@hit.edu.cn

王旗龙，天津大学副教授，主要研究方向为图像视频分类、物体检测、深层概率分布建模。

E-mail：qlwang@tju.edu.cn

魏云超，北京交通大学教授，主要研究方向为弱监督学习、计算机视觉。

E-mail：yunchao.wei@bjtu.edu.cn

孟德宇，西安交通大学教授，主要研究方向为计算机视觉、机器学习。

E-mail：dymeng@mail.xjtu.edu.cn

中国图象图形学学会机器视觉专委会简介

人工智能大发展给机器视觉带来了重大历史机遇，机器视觉专委会旨在团结和组织机器视觉相关领域的科研人员、企业技术专家等，通过学术交流、技术研讨、成果对接等活动，分享科研心得、畅谈学术热点、分析战略动态、助推产业升级，并实现凝聚人才、凝聚智慧、凝聚力量的作用，使行业内优秀科技工作者利用这一平台，提高学术水平，扩大学科影响，同时助推科研单位和高校的人才培养，引领和促进行业创新，最终提高机器视觉在国家和国际的学术影响力，促进学科发展和产学研转化。机器视觉专委会曾三次获评CSIG优秀专委会，目前拥有224位委员。

主任	林宙辰	北京大学	教授
副主任	孙哲南	中国科学院自动化研究所	研究员
副主任	王菡子	厦门大学	教授
秘书长	曾钢	北京大学	研究员
副秘书长	刘光灿	东南大学	教授

中国图象图形学学会2022年度系列奖励推荐工作启动

中国图象图形学学会科普活动、素材征集通知

中国图象图形学学会高校志愿者招募

中国图象图形学学会关于组织开展科技成果鉴定的通知

2022年CSIG图像图形中国行承办方征集中

登录查看更多

相关内容

弱监督学习

关注 7

弱监督学习：监督学习的一种。大致分3类，第一类是不完全监督（incomplete supervision），即，只有训练集的一个（通常很小的）子集是有标签的，其他数据则没有标签。这种情况发生在各类任务中。例如，在图像分类任务中，真值标签由人类标注者给出的。从互联网上获取巨量图片很容易，然而考虑到标记的人工成本，只有一个小子集的图像能够被标注。第二类是不确切监督（inexact supervision），即，图像只有粗粒度的标签。第三种是不准确的监督（inaccurate supervision），模型给出的标签不总是真值。出现这种情况的常见原因有，图片标注者不小心或比较疲倦，或者某些图片就是难以分类。

视觉弱监督学习研究进展

专知会员服务

32+阅读 · 2022年6月28日

【TPAMI2021】深度神经网络自监督视觉特征学习综述，22页pdf

专知会员服务

41+阅读 · 2021年10月25日

面向行人重识别的局部特征研究进展、挑战与展望

专知会员服务

27+阅读 · 2021年10月13日

深度医学图像配准研究进展：迈向无监督学习

专知会员服务

31+阅读 · 2021年9月23日