组合式零样本学习(Compositional Zero-Shot Learning, CZSL) 是计算机视觉中的一项关键任务,它使模型能够在推理阶段识别由已知属性和对象组成的未见组合,从而应对“为每一种可能的组合都需要训练数据”这一组合爆炸问题。 这一任务极具挑战性,因为视觉原语(primitives)的外观具有高度的上下文依赖性:例如,“小猫”和“老猫”在视觉上显著不同,而“湿的汽车”和“湿的猫”也表现出完全不同的外观特征。如何有效建模这种上下文依赖性组合性,是实现稳健的组合式零样本识别的关键。 本文提出了据我们所知首个专注于组合式零样本学习的全面综述。我们系统回顾了该领域的最新研究进展,并基于“可分解性(disentanglement)”构建了一套分类体系,将现有方法划分为四大类: 1. 无显式解缠方法(no explicit disentanglement); 1. 文本解缠方法(textual disentanglement); 1. 视觉解缠方法(visual disentanglement); 1. 跨模态解缠方法(cross-modal disentanglement)

我们对这些方法进行了详细的比较分析,强调了它们在不同问题设定(如封闭世界开放世界CZSL)下的核心优势与局限性。最后,我们指出了当前研究中仍存在的关键开放问题,并展望了未来的潜在研究方向。 本综述旨在成为指导和启发未来研究的重要参考资源。文中所涉及的研究论文及其官方代码已整理并公开于我们的GitHub仓库: 👉 https://github.com/ans92/Compositional-Zero-Shot-Learning

1 引言(Introduction)

零样本学习(Zero-Shot Learning, ZSL) 是一种机器学习范式,使模型能够对训练阶段未见过的类别进行分类。其核心思想是利用辅助信息(如文本描述或语义嵌入)来弥合“已见类别”(seen classes)与“未见类别”(unseen classes)之间的语义鸿沟。ZSL 的基本原理是:通过从带标签的“已见”类别中学习到的知识,迁移并推断出“未见”类别的表示与决策。这一能力对于缓解数据稀缺问题至关重要,因为它无需为每个新类别进行大量数据收集与重新训练。因此,ZSL 使得人工智能模型更加灵活和可扩展,能够动态地识别新概念。 在众多零样本学习问题中,组合式零样本学习(Compositional Zero-Shot Learning, CZSL) [9, 15, 33–35] 是一个极具代表性的方向,其目标是识别由已知概念组合而成的全新组合。更具体地,在 CZSL 中,每个类别通常被定义为对象(object)与其属性(attribute)的组合,用以描述对象的特征或状态。在 CZSL 的零样本任务中,若已知训练组合如 “绿色鹦鹉(Green Parrot)”、“黄色麻雀(Yellow Sparrow)”和“红色汽车(Red Car)”,模型应能识别出未见过的新组合,例如“黄色鹦鹉(Yellow Parrot)”(如图1a)。

CZSL 的困难在于——属性与对象的组合数随二者数量呈指数级增长。因此,如何学习到可表达、可解缠且可重组的语义表示成为关键挑战。尤其是,属性和对象的视觉表现高度依赖上下文:同一属性在不同对象上可能表现完全不同,反之亦然。例如,“湿的汽车(wet car)”与“损坏的汽车(broken car)”,或“小型飞机(small plane)”与“小猫(small cat)”,其视觉差异巨大(如图1b)。

近年来,组合式零样本学习作为一个极具潜力的研究领域,受到了越来越多的关注。这一趋势不仅体现在相关论文数量的持续增长(如图2a),还体现在顶级学术会议中 CZSL 研究的显著增加(如图2b)。这些统计结果来自我们在 Google Scholar 上使用关键词“compositional zero-shot learning”、“state-object composition”与“attribute-object recognition”进行的系统搜索。为保证研究的质量与代表性,我们仅选取了: (i) 顶级计算机视觉与机器学习会议(如 CVPR、ICCV、ECCV、NeurIPS、ICLR、AAAI); (ii) 影响因子高于 7 的权威期刊(如 IEEE TPAMI、Pattern Recognition (PR)、IEEE TMM)。 这一筛选确保了分析结果反映了该领域最具影响力的工作,所得图表展示了 CZSL 研究的数量增长与学术分布趋势。图2b中使用的缩写如下: CVPR(Conference on Computer Vision and Pattern Recognition),ICCV(International Conference on Computer Vision),ECCV(European Conference on Computer Vision),NeurIPS(Neural Information Processing Systems),ICLR(International Conference on Learning Representations),AAAI(AAAI Conference on Artificial Intelligence),IJCAI(International Joint Conference on Artificial Intelligence),WACV(Winter Conference on Applications of Computer Vision),IEEE TPAMI(IEEE Transactions on Pattern Analysis and Machine Intelligence),PR(Pattern Recognition),IEEE TMM(IEEE Transactions on Multimedia)。 尽管近年来 CZSL 发展迅速、方法多样,但当前研究仍缺乏一篇系统且全面的综述性论文,以提供对方法论思想及其演化的细致理解。尤其是,关于“如何在学习独立原语表示(primitive representation)与建模其上下文交互(contextual interaction)之间取得平衡”的系统性分类框架仍待建立。 为弥补这一空白,本文首次提出针对 CZSL 的系统分析框架与全面综述。我们的主要贡献如下: * 全面的分类体系(Comprehensive Taxonomy): 我们提出首个基于解缠性(disentanglement)原则构建的 CZSL 方法分类体系。在第一层次上,依据是否在文本模态视觉模态双模态中显式地进行解缠,或完全未解缠,将方法分为四类;在第二层次上,则进一步按照属性建模策略与组合建模机制进行细化。该层次化结构实现了对文献的精确且无重叠组织,揭示了不同方法在设计选择与技术演进上的新洞见。 * 趋势识别与性能分析(Trend Identification and Performance Analysis): 我们总结了 CZSL 方法的关键性能趋势,揭示了不同方法论范式(尤其是跨模态/混合式方法)的崛起与主导地位。 * 开放问题与未来方向(Open Challenges and Future Directions): 我们系统梳理了当前 CZSL 模型仍面临的核心挑战,并提出了具有前瞻性的研究方向,以期为后续研究提供指导。

本文的结构如下: 第2节定义了 CZSL 问题,并讨论了其不同的推理设定(包括封闭世界与开放世界范式); 第3节提出系统的分类框架,并按照解缠程度(无、文本、视觉、双模态)及其属性建模策略进行归类; 第4节综述 CZSL 的基准数据集,分析其属性-对象覆盖度与组合多样性; 第5节总结 CZSL 的评测协议与指标体系; 第6节基于上述框架,对现有方法进行比较分析,指出其主要优势、局限与实验表现; 第7节探讨当前最重要的开放挑战,并展望 CZSL 的未来研究方向。

成为VIP会员查看完整内容
0

相关内容

零样本学习是AI识别方法之一。简单来说就是识别从未见过的数据类别,即训练的分类器不仅仅能够识别出训练集中已有的数据类别,还可以对于来自未见过的类别的数据进行区分。这是一个很有用的功能,使得计算机能够具有知识迁移的能力,并无需任何训练数据,很符合现实生活中海量类别的存在形式。
神经图推理:复杂逻辑查询回答的综述
专知会员服务
28+阅读 · 2024年12月10日
图终身学习:综述
专知会员服务
31+阅读 · 2024年5月20日
逆向强化学习研究综述*
专知会员服务
58+阅读 · 2023年10月13日
清华最新《解耦表征学习》综述
专知会员服务
70+阅读 · 2023年2月23日
持续学习:研究综述
专知会员服务
81+阅读 · 2023年1月30日
专知会员服务
23+阅读 · 2021年9月16日
专知会员服务
134+阅读 · 2021年3月13日
【WWW2021】本体增强零样本学习
专知会员服务
35+阅读 · 2021年2月26日
综述:基于GAN的图像翻译模型盘点
GAN生成式对抗网络
21+阅读 · 2019年9月2日
再谈人脸识别损失函数综述
人工智能前沿讲习班
14+阅读 · 2019年5月7日
997篇-历史最全生成对抗网络(GAN)论文串烧
深度学习与NLP
16+阅读 · 2018年6月26日
现代情感分析方法
算法与数学之美
14+阅读 · 2018年1月12日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
487+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关VIP内容
神经图推理:复杂逻辑查询回答的综述
专知会员服务
28+阅读 · 2024年12月10日
图终身学习:综述
专知会员服务
31+阅读 · 2024年5月20日
逆向强化学习研究综述*
专知会员服务
58+阅读 · 2023年10月13日
清华最新《解耦表征学习》综述
专知会员服务
70+阅读 · 2023年2月23日
持续学习:研究综述
专知会员服务
81+阅读 · 2023年1月30日
专知会员服务
23+阅读 · 2021年9月16日
专知会员服务
134+阅读 · 2021年3月13日
【WWW2021】本体增强零样本学习
专知会员服务
35+阅读 · 2021年2月26日
相关资讯
综述:基于GAN的图像翻译模型盘点
GAN生成式对抗网络
21+阅读 · 2019年9月2日
再谈人脸识别损失函数综述
人工智能前沿讲习班
14+阅读 · 2019年5月7日
997篇-历史最全生成对抗网络(GAN)论文串烧
深度学习与NLP
16+阅读 · 2018年6月26日
现代情感分析方法
算法与数学之美
14+阅读 · 2018年1月12日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员