Post-hoc explainability methods are a subset of Machine Learning (ML) that aim to provide a reason for why a model behaves in a certain way. In this paper, we show a new black-box model-agnostic adversarial attack for post-hoc explainable Artificial Intelligence (XAI), particularly in the image domain. The goal of the attack is to modify the original explanations while being undetected by the human eye and maintain the same predicted class. In contrast to previous methods, we do not require any access to the model or its weights, but only to the model's computed predictions and explanations. Additionally, the attack is accomplished in a single step while significantly changing the provided explanations, as demonstrated by empirical evaluation. The low requirements of our method expose a critical vulnerability in current explainability methods, raising concerns about their reliability in safety-critical applications. We systematically generate attacks based on the explanations generated by post-hoc explainability methods (saliency maps, integrated gradients, and DeepLIFT SHAP) for pretrained ResNet-18 and ViT-B16 on ImageNet. The results show that our attacks could lead to dramatically different explanations without changing the predictive probabilities. We validate the effectiveness of our attack, compute the induced change based on the explanation with mean absolute difference, and verify the closeness of the original image and the corrupted one with the Structural Similarity Index Measure (SSIM).


翻译:后验可解释性方法是机器学习(ML)的一个子集,旨在为模型的行为提供解释依据。本文提出了一种新的黑盒模型无关对抗攻击方法,专门针对后验可解释人工智能(XAI)领域,尤其在图像领域。该攻击的目标是在保持预测类别不变且不被人类视觉察觉的前提下,篡改原始解释结果。与以往方法不同,本方法无需访问模型或其权重参数,仅需利用模型计算的预测结果与解释输出。此外,攻击通过单步操作即可显著改变提供的解释,实证评估验证了其有效性。该方法对攻击条件的低要求揭示了当前可解释性方法存在的严重脆弱性,引发了对其在安全关键应用中可靠性的担忧。我们基于后验可解释性方法(显著图、积分梯度及DeepLIFT SHAP)生成的解释,系统地对ImageNet数据集上预训练的ResNet-18和ViT-B16模型实施攻击。结果表明,我们的攻击能在不改变预测概率的情况下导致解释结果发生显著差异。我们通过平均绝对差量化解释结果的诱导变化,并采用结构相似性指数(SSIM)验证原始图像与篡改图像的视觉接近度,从而验证了攻击的有效性。

0
下载
关闭预览

相关内容

【ICML2022】Sharp-MAML:锐度感知的模型无关元学习
专知会员服务
17+阅读 · 2022年6月10日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习
专知会员服务
37+阅读 · 2021年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员