面向图像分类的对抗鲁棒性评估综述

2022 年 10 月 15 日 专知

摘要：近年来，以深度学习为代表的人工智能技术在金融安防、自动驾驶、医疗诊断等领域取得了较为成功的应用.然而，图像分类作为上述应用中的一项基础视觉任务，正遭受着对抗攻击等技术手段带来的巨大安全隐患.提高深度学习模型抵御对抗攻击的能力(即对抗鲁棒性)成为有效缓解该问题的可行技术途径.为了科学、全面地提升深度学习模型的对抗鲁棒性，众多学者从基准评估和指标评估2个角度围绕对抗鲁棒性评估开展了大量研究.该研究着重对上述指标评估相关研究进行综述：首先，介绍对抗样本相关概念以及存在的原因，总结提出进行对抗鲁棒性评估时需要遵循的评估准则；其次，从被攻击模型和测试数据2个维度，重点梳理和对比分析现有的主要对抗鲁棒性评估指标；而后，分析总结现阶段主流的图像分类数据集和对抗攻防集成工具，为后续开展对抗鲁棒性评估奠定基础；最后，探讨当前研究的优势和不足，以及未来潜在的研究方向.旨在为相关领域从业人员或学习者提供一个较为全面的、系统的和客观的面向图像分类的对抗鲁棒性评估指标综述.

引言

２０１９年瑞莱智慧 RealAI团队对人脸照片进行算法处理,将照片打印并粘贴到镜框上,通过佩戴眼镜成功攻破１９款商用手机的人脸解锁[１];２０２０年美国东北大学团队[２]设计了一款印有特殊图案的 T 恤,可使穿戴者躲避智能摄像头的监测;２０２１年腾讯科恩实验室[３]通过在路面部署干扰信息,导致特斯拉 ModelS车辆经过时对车道线做出错判,致使车辆驶入反向车道􀆺􀆺 由此可见,尽管深度学习在执行各种复杂任务时取得了出乎意料的优异表现,但在安全应用领域仍有很大的局限性．Szegedy等人[４]发现,深度学习对于精心设计的输入样本是很脆弱的．这些样本可以轻易用人类察觉不到的微小扰动,欺骗一个训练好的深度学习模型,使模型做出错误的决策．现在, 深度学习中的对抗攻击技术受到了大量关注,以面向图像分类为主的对抗攻击算法[５Ｇ１０]不断涌现．在此背景下,越来越多的研究者开始关注如何提升模型抵御对抗攻击的能力,即增强模型的对抗鲁棒性,并探索出了一系列的对抗防御手段,如梯度遮蔽[１１Ｇ１２]、对抗训练[６,１３]、数据处理[１４Ｇ１５]和特征压缩[１６]等．尽管这些方法对于改善模型的对抗鲁棒性是有效的,但是目前针对模型对抗鲁棒性的评估框架尚未完善,主要是通过不断改进攻防算法,反复进行对抗,定性给出模型鲁棒性好坏的基准,或者使用分类准确率等指标单一地衡量模型的对抗鲁棒性．此外,许多攻击算法或多或少会受到实验条件的限制, 难以适用于所有的深度学习模型,这些问题为模型的对抗鲁棒性评估(adversarialrobustnessevaluation) 带来了挑战．

目前,面向图像分类的对抗鲁棒性评估领域还有很大的发展空间,如何正确、科学、定量且全面地评估模型的对抗鲁棒性,正在吸引业界和学术界的关注．为了更好地探究对抗鲁棒性评估问题,本文系统梳理并分析总结了面向图像分类的对抗鲁棒性评估方法,以促进该领域的研究．

１对抗样本相关介绍

生成对抗样本是开展对抗鲁棒性评估工作的基础．为了更好地理解对抗鲁棒性评估,本节首先简要介绍对抗样本的概念和相关专业术语,并探讨对抗样本存在的原因。

1.1 对抗样本及相关术语

概念１．对抗样本．最早提出这一概念的是 Szegedy等人[４],他们在原始样本上添加肉眼难以察觉的微小扰动,愚弄了当时最先进的深度神经网络(deepneuralnetworks,DNNs),诱导模型分类错误．如图１所示,通过在原始样本上添加图中的扰动,就能让模型将卡车错误地识别成鸵鸟。这些经过精心设计的样本被称为对抗样本 (adversarialexample),构造对抗样本的过程被称为对抗攻击．

概念２．对抗攻击目标．Biggio等人[１９]指出对抗攻击的目标是根据需求实现损失函数最小化或最大化．从实际攻击效果来看,也就是通过添加精心设计的微小扰动实现模型的错误分类．根据不同的攻击目的,可以将对抗攻击目标划分为非目标攻击和目标攻击．非目标攻击指的是对抗样本诱导模型分类错误,但不指定错分为哪一种类别,而目标攻击限定了模型将标签为i 的样本错分成第j 类,数学语言描述分别为

概念３．对抗攻击知识．它指的是攻击者所掌握的相关信息,包括训练样本、模型结构和模型输出等．针对攻击者对智能系统了解情况的多少,可以将攻击划分为白盒攻击、灰盒攻击和黑盒攻击,攻击难度依次增大．由于灰盒攻击的边界难以界定,目前研究大多以白盒攻击和黑盒攻击为主,本文不对灰盒攻击进行相关介绍．

概念４．对抗攻击能力[２０Ｇ２１]．指攻击者修改训练数据或测试数据的能力．在针对图像分类任务开展对抗攻击时,攻击者的能力往往仅限于对测试集数据进行修改,不考虑通过数据投毒等手段,影响模型的训练过程,这种攻击被称为探索性攻击．与之对应的诱导性攻击,指的是通过修改训练集,破坏原有训练数据的概率分布,使模型无法达到理想的分类效果．由此可见,诱导性攻击从根本上实现了对模型的攻击,比探索性攻击的攻击性更强．通过分析图像分类全过程各环节[２２]的特点,从上述提到的攻击目标、知识以及能力３个维度对对抗攻击方法进行分类,形成如图２所示的对抗攻击分类框架．诱导性攻击主要对原始数据输入以及数据处理阶段进行攻击,探索性攻击是在模型训练完成后,针对分类阶段进行攻击;倘若攻击者无法获取模型训练及训练前各阶段的信息,则开展的攻击为黑盒攻击,否则为白盒攻击;在最终的分类阶段,针对攻击者能否精确控制分类器对测试样本的分类结果,可以将对抗攻击划分为目标攻击和非目标攻击２类．

1.2 对抗样本存在的解释

对抗鲁棒性评估与对抗样本密切相关,深入理解对抗样本产生的机理有助于从根本上提出科学的评估方法与指标．然而关于对抗样本存在的解释仍有许多争议,目前还没有得出一个准确统一的结论． Szegedy等人[４]认为网络模型的非线性特性是导致对抗样本存在的原因．具体而言,他们从正负实数分类问题中发现,由于无理数的个数要远多于有理数,训练集中无理数和有理数的比例难免失去平衡,基于此数据集训练的模型可能无法对有理数进行正确的分类．但不可否认的是,有理数是的确存在且稠密的．对抗样本好比有理数,模型的非线性特性。使得模型训练时对高维特征的提取不充分,仅仅学习到局部子空间的特征,可能导致一直存在但被发现的概率很低的对抗样本难以被观察到,进而影响了模型的决策．遗憾的是,文献[４]并没有给出相关的数学说明．

２对抗鲁棒性评估

科学、有效地评估模型的对抗鲁棒性对于构建对抗鲁棒模型、提高智能系统安全性具有重要意义．然而,至今尚未形成一个公正、统一的对抗鲁棒性评估指标或方法．现阶段面向图像分类的对抗鲁棒性评估主要分为基准评估和指标评估２类．前者通过提出并改进各种攻防算法[２７Ｇ３１],反复进行对抗,以排名基准[３２]的形式反映对抗鲁棒性的强弱;后者从对抗样本的角度出发提出一系列评估指标,旨在通过全面、合理的指标对模型的对抗鲁棒性进行评估．相比前者,后者的优势在于能够以客观可量化的方式衡量模型的对抗鲁棒性,为增强模型的对抗鲁棒性提供可解释的科学依据．

2.1 基本概念

在深度学习领域,鲁棒性(robustness)指的是智能系统在受到内外环境中多种不确定因素干扰时,依旧可以保持功能稳定的能力．而对抗鲁棒性 (adversarialrobustness)[１２,３３]专指对抗环境下模型抵御对抗攻击的能力,即模型能否对添加微小扰动的对抗样本做出正确分类的能力．以任意攻击方法在原始样本上添加扰动,模型正确识别该样本的概率越高,说明模型的对抗鲁棒性越强．从数据空间的角度来看,添加的扰动可以被描述为对抗扰动距离[７](即原始样本和对抗样本之间的距离),距离范围内的样本都能够被正确分类．因此也可以说,最小对抗扰动距离(minimaladversarialperturbation)越大,则允许添加的扰动范围越大,模型的对抗鲁棒性越强．

可以看出,对抗鲁棒性评估的关键是计算最小对抗扰动距离．如果可以计算出最小对抗扰动距离的精确值,那么最小对抗扰动距离的值将可以作为模型对抗鲁棒性评估的指标．然而,由于神经网络模型是大型、非线性且非凸的,对抗鲁棒性等模型属性的验证问题已被证明是一个 NP 完全 (nonＧdeterministicpolynomialＧcomplete,NPＧC)问题[３３Ｇ３５]．作为与对抗鲁棒性相关的指标,最小对抗扰动距离难以被精确求解．因此,许多研究转向使用最小对抗扰动的上界或下界去近似精确值[３６]．当扰动距离大于上边界距离时,说明至少有１个添加了该扰动的样本被模型误分类;当扰动距离小于下边界距离时,则任意添加了该扰动的样本都能被模型正确分类,如图３所示．通过最大下边界距离或最小上边界距离逼近最小对抗扰动距离,从而实现对模型对抗鲁棒性的评估。

2.2 评估准则

对抗鲁棒性评估是一个比较困难的问题,执行不合理的实验会导致评估无效．比如向原始样本添加的扰动过大,人眼即可判别生成样本与原始样本, 在此基础上得到的评估结果是无意义的[３７]．诸如此类的错误常常被研究人员忽略．本文梳理了进行对抗鲁棒性评估时需要遵守的３个评估准则[３７],以便指导研究人员开展正确的评估．

１)合理使用攻击算法进行评估．部分攻击算法是针对某种特定模型而设计的,若将其应用于其他模型,很难体现出模型是否具有抵御这种攻击的能力,也无法说明模型具有对抗鲁棒性．另外,在进行对抗鲁棒性评估时,需要保证评估的普适性,这就意味着不能仅仅使用带有默认超参数的对抗攻击进行评估,应该排列组合所有参数,达到不同程度的攻击效果,从而评估模型的对抗鲁棒性．

２)保证模型在正常环境下的良好性能．实验表明,对抗训练会导致智能系统中神经网络模型的准确率下降[３８]．显然,以牺牲模型对原始样本的准确率来增强模型对抗鲁棒性的做法是不可取的．因此, 开展对抗鲁棒性评估,应说明模型对原始样本的分类准确率．被攻击模型保持正常环境下的分类准确率是正确评估对抗鲁棒性的前提．在满足该前提的条件下,如果被攻击模型能够正确识别对抗样本,才能说明模型具有较好的对抗鲁棒性．

３)结合实际需求选择评估结果分析方法．理论上,评价智能系统的对抗鲁棒性应分析模型受到攻击威胁时的最坏结果．在现实情况中,往往从统计学角度以平均效果衡量鲁棒性的好坏．针对不同需求, 应适当调整评估思维,给出符合实际的评估结果．进行统计学分析时,还需对分类准确率等结果进行方差计算,避免出现较高的偏差,使评估结果失去稳定性．

2.3 评估指标体系

当前大多数研究通过分类准确率、攻击次数或扰动强度这３种指标进行对抗鲁棒性评估．这些指标能够直观上反映模型对抗鲁棒性的强弱,但未能全面地考虑到影响对抗鲁棒性的因素．针对该问题, 本节梳理了现有研究中所涉及的３０余种对抗鲁棒性评估指标,并从被攻击模型和测试数据２个角度对指标进行分类．

３对抗攻防工具与数据集

近年来,对抗攻防研究发展迅速,相应算法层出不穷．自２０１６年始,许多研究单位推出了集成众多主流算法的对抗攻防工具,以提高研究者与开发人员的测评效率,助力推动智能系统安全领域的发展．此外,在使用对抗攻防工具进行实验的过程中,各学者还应用了多种不同的数据集．本节将介绍主流的数据集与对抗攻防集成平台,方便后续开展对抗鲁棒性评估研究．

４未来研究方向

对抗攻击技术近年来获得了业界内的广泛关注,取得了许多突破性进展,但关于对抗鲁棒性评估的研究仍处于起步阶段,依然面临许多的挑战．基于本文对对抗鲁棒性评估研究现状的深入分析,未来该领域的研究需要重点关注４个方向:

１)深入开展对抗样本存在机理、深度学习模型脆弱性和可解释性等理论研究．目前国内外学术界关于对抗样本的存在原因尚未达成共识,缺乏完备的数学理论支撑,对于如何正确解释深度学习模型的内在逻辑与扰动下的决策行为尚在探索当中．这些难题与对抗鲁棒性的评估有着紧密关联,开展相关理论研究有助于理解对抗鲁棒性评估问题的本质,把握影响模型对抗鲁棒性的关键因素,能从根本上解决对抗环境下模型鲁棒性的评估问题,是未来对抗鲁棒性评估问题在理论层面上值得研究的方向之一．

２)提出一种或一组通用的、可量化的、综合的对抗鲁棒性评估指标．无论是面向数据的指标还是面向模型的指标,分析视角单一,给出的评估结果很难被直接采纳．此外,影响模型对抗鲁棒性的因素众多,采用一种或几种指标难以准确、完整地评估对抗鲁棒性的强弱．参考其他研究领域指标评估的方法, 梳理影响对抗鲁棒性的全部因素,抓住关键要素,提出一种或一组通用的、可量化的、综合的指标,全面评估模型的对抗鲁棒性,是未来对抗鲁棒性评估问题在方法层面上值得研究的方向之一．

３)构建科学、统一、规范、完备的对抗鲁棒性评估框架．面向图像分类的数据集种类繁多,攻击方法不断被创新,评估指标与评估方法不尽相同,尽管对抗攻防集成工具涵盖多种攻防算法,但也无法保证进行对抗鲁棒性评估的实验条件和度量标准是一致的,这为模型与模型之间、模型防御前后对抗鲁棒性的比较带来了困难．搭建对抗鲁棒性评估框架,全面综合各种攻防算法、数据集与评估指标,在标准对抗环境下从多层次、细粒度分析图像分类全过程模型抵御对抗攻击的能力,是未来对抗鲁棒性评估问题在流程层面上值得研究的方向之一．

４)重点研究黑盒、非目标的融合攻击环境下的对抗鲁棒性评估方法．物理场景中难以获取模型的全部信息,针对白盒、目标攻击的评估方法难以应用于实际智能系统模型的对抗鲁棒性评估任务,且由于目前黑盒、非目标攻击的性能远低于人们的预期, 无法保证使用该攻击进行评估的效果．更重要的是, 现实环境中攻击者可能融合对抗扰动、自然噪声等多种类型干扰或多种攻击方法开展对抗攻击,亦或利用智能系统在动态环境下依据时间、空间等信息进行决策的漏洞,设计融合多元信息干扰的对抗攻击方法,这给对抗鲁棒性评估带来了新的契机与挑战．如何评估模型在黑盒、非目标的融合攻击环境下的对抗鲁棒性,是未来对抗鲁棒性评估问题在实际应用层面上值得研究的方向之一．

５总结

面对对抗攻击等各种威胁,增强模型的对抗鲁棒性是保障智能系统安全的重要方式和手段．评估对抗鲁棒性是指导提升模型对抗鲁棒性的基础．然而,关于对抗鲁棒性评估的研究还停留在初级阶段, 仅仅依靠排名基准或简单指标无法准确衡量模型抵御对抗攻击的能力．因此,本文在调研和分析国内外对抗鲁棒性评估研究的基础上,针对图像分类这一基础视觉任务,从对抗样本存在原因、对抗鲁棒性评估准则、对抗鲁棒性评估指标等方面对现有研究成果进行了归类、总结和分析．同时,梳理了现阶段主流的图像分类数据集和对抗攻防集成工具．最后,指出了对抗鲁棒性评估未来可能的研究方向,旨在为该领域研究的进一步发展和应用提供一定借鉴与帮助．

专知便捷查看