Zero-shot Learning (ZSL) aims to enable image classifiers to recognize images from unseen classes that were not included during training. Unlike traditional supervised classification, ZSL typically relies on learning a mapping from visual features to predefined, human-understandable class concepts. While ZSL models promise to improve generalization and interpretability, their robustness under systematic input perturbations remain unclear. In this study, we present an empirical analysis about the robustness of existing ZSL methods at both classlevel and concept-level. Specifically, we successfully disrupted their class prediction by the well-known non-target class attack (clsA). However, in the Generalized Zero-shot Learning (GZSL) setting, we observe that the success of clsA is only at the original best-calibrated point. After the attack, the optimal bestcalibration point shifts, and ZSL models maintain relatively strong performance at other calibration points, indicating that clsA results in a spurious attack success in the GZSL. To address this, we propose the Class-Bias Enhanced Attack (CBEA), which completely eliminates GZSL accuracy across all calibrated points by enhancing the gap between seen and unseen class probabilities.Next, at concept-level attack, we introduce two novel attack modes: Class-Preserving Concept Attack (CPconA) and NonClass-Preserving Concept Attack (NCPconA). Our extensive experiments evaluate three typical ZSL models across various architectures from the past three years and reveal that ZSL models are vulnerable not only to the traditional class attack but also to concept-based attacks. These attacks allow malicious actors to easily manipulate class predictions by erasing or introducing concepts. Our findings highlight a significant performance gap between existing approaches, emphasizing the need for improved adversarial robustness in current ZSL models.


翻译:零样本学习旨在使图像分类器能够识别训练过程中未包含的未见类别的图像。与传统的有监督分类不同,零样本学习通常依赖于学习从视觉特征到预定义的、人类可理解的类别概念的映射。尽管零样本学习模型有望提升泛化能力和可解释性,但其在系统性输入扰动下的鲁棒性仍不明确。本研究对现有零样本学习方法在类级和概念级的鲁棒性进行了实证分析。具体而言,我们通过著名的非目标类攻击成功扰乱了其类别预测。然而,在广义零样本学习设置中,我们观察到非目标类攻击的成功仅出现在原始最佳校准点。攻击后,最优最佳校准点发生偏移,且零样本学习模型在其他校准点仍保持相对较强的性能,这表明非目标类攻击在广义零样本学习中仅产生虚假的攻击成功。为解决此问题,我们提出了类偏差增强攻击,该方法通过增大可见类与未见类概率之间的差距,完全消除了广义零样本学习在所有校准点上的准确性。在概念级攻击方面,我们引入了两种新型攻击模式:类保持概念攻击与非类保持概念攻击。我们通过大量实验评估了过去三年中三种典型的不同架构的零样本学习模型,结果表明零样本学习模型不仅对传统的类攻击脆弱,对基于概念的攻击同样脆弱。这些攻击使恶意行为者能够通过擦除或引入概念轻易操纵类别预测。我们的发现揭示了现有方法之间存在显著的性能差距,强调了当前零样本学习模型提升对抗鲁棒性的必要性。

0
下载
关闭预览

相关内容

【CVPR2023】正则化二阶影响的持续学习
专知会员服务
19+阅读 · 2023年4月22日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
专知会员服务
112+阅读 · 2020年6月26日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【CVPR2023】正则化二阶影响的持续学习
专知会员服务
19+阅读 · 2023年4月22日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
专知会员服务
112+阅读 · 2020年6月26日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员