鲁棒表示学习简述

会员服务 ·

鲁棒表示学习简述

2021 年 4 月 13 日 专知

作者：哈工大SCIR、AIUS 齐弼卿

前言

最近热映的《哥斯拉大战金刚》想必让众多影迷期待已久，里面的打斗特效着实让人震撼，但为何被囚禁在骷髅岛的金刚会和地球上唯二仅存的泰坦巨兽哥斯拉相遇？两人的终极对决会以怎样的结局收场？一切疑问，都可以在AI中找到答案。

APEX计划打造出人工巨兽，主宰世界，而这导致了哥斯拉的袭击和金刚离开骷髅岛。APEX用已故巨兽基多拉的头骨打造成了控制台，进行自主学习，但在将地心能量注入机械哥斯拉时，似乎激活了某种残存的意识，并导致了难以控制的悲剧发生......

相比起哥斯拉和金刚，失去控制的AI哥斯拉更加可怕，似乎我们可以从电影中反思一些事情？

我们总会觉得这样的事情离我们很遥远，其实并不是，类似的例子就在我们身边…

接下来，本文将简述鲁棒表示相关内容，解释AI哥斯拉背后的问题。

1.摘要

鲁棒性是指系统在一定（结构、大小）参数摄动下，维持某些性能的特性。

对于机器学习问题而言，对抗样本是一种很好的体现和验证模型鲁棒性的方式，模型鲁棒性的问题远远不止对抗样本一个方面，但是对抗样本是模型鲁棒性非常好的议题和出发点，代表了其中一种具体问题。因此，本文主要从对抗样本角度出发简述模型鲁棒性相关内容。首先给出对抗样本的实际案例，分析给出对抗样本出现的原因，引出研究动机和意义。然后，介绍提升模型鲁棒性的主要思路，包括信息瓶颈和互信息约束构建显示正则的方法。最后给出总结和思考。

2.研究动机

随着AI技术的快速发展，视频监控、自动驾驶、无人机和机器人、语音识别、文本生成等多个AI细分领域都得到了快速的发展，甚至在某些方面可以媲美人类，为我们生活带来极大的便利。然而Szegedy等人^[1]在2014年的研究工作发现了一个有趣的现象，他们发现在原始图像（如下左图所示），加入人眼不可察觉的噪声扰动（中间）构建成新的样本（如右图），这类新样本会使机器学习模型出现高置信度的预测错误。此外，同样的图片扰动可以欺骗多种网络结构。他们把这种攻击称为对抗样本（人肉眼不可察觉的错误，机器高概率预测错误的样本）。

其实，在机器学习领域，对抗样本的问题并不是第一次提到，Biggo等人^[2]在2013年的工作中就指出深度神经网络存在易于攻击的安全隐患。

这类现象的出现让我们产生一个新的疑问——现有机器学习系统是否安全可靠？这也对当下深度神经网络的现实安全意义引发思考。看到对抗样本现象之初，我们肯定会存在这样的疑问：对抗样本的现象是否普遍存在？是否具备迁移特性？所构成的威胁是否很大程度影响对AI系统的信任？事实上，答案是肯定的。

2.1对抗样本实际案例

2019年4月初，专注于安全技术的腾讯科恩实验室公布了一项在特斯拉 Model S上进行的安全性研究，并发布报告指出了三个缺陷，其中就包括雨刷、车道的两项视觉识别，而两者正是基于对抗攻击。

在实验中，团队将特斯拉停在一个室内环境中，在车辆前播放特定的干扰画面，使车辆得出了下雨的错误判断，导致雨刷自动启动。实验室表示，这是利用 AI对抗样本生成技术生成特定图像并实现了对汽车的干扰。YOLO网络在几乎所有帧中都无法感知识别出「停止」标志。如果一辆真实的自动驾驶汽车在具有这样的对抗式「停止」标志的道路上行驶，它就无法看到这种「停止」标志，从而有可能造成交叉路口撞车事故。科研人员创造的这种扰动很稳健，不受距离和角度影响——这两者是自动驾驶场景中最常见的变化因素。更有趣的是，为YOLO检测器生成的实体对抗样本也可以骗过标准的Faster-RCNN。我们的演示视频包含了一次实体对抗样本在 Faster-RCNN上的动态测试。视频如下：

在人脸识别和目标检测越来越普及的今天，如果说有一件衣服能让你在AI 检测系统中“消失无形”，请不要感到惊讶。由MIT-IBM Watson AI Lab研究者联合研发的这款基于对抗样本设计的T-shirt^[3]，如下图所示，可以让你无形穿梭于图像识别系统之间。该研究指出在客观的物理世界系统中同样难以避免这样的问题，也旨在引起大家对当下深度神经网络的安全问题的重视。

除了图像领域外，在2017年前后，当国内外业界，无论是雄踞一方的巨头还是崭露头角的新秀，都争先恐后地发布智能音箱，进而用跳楼价在家居语音入口这个还远不成气候的领域里圈地盘的时候，学界开始了对语音对抗性攻击的关注，也终于在视觉之后水涨船高。如下图所示，人听着没有差别的两段语音，机器却会给出完全不同的转义结果^[4]^[5]^[6]。而现在语音系统已经广泛应用到日常生活当中。例如，在无人驾驶过程中，当我们听歌曲的时候，出现微信语音攻击，误导车辆出现错误的执行结果，这会带来巨大的安全威胁。

以下展示其中一个案例，具体的案例可以访问链接：https://nicholas.carlini.com/code/audio_adversarial_examples/

Transcription: “that day the merchant gave the boy permission to build the display”

Transcription: “everyone seemed very excited”

Transcription: “plastic surgery has beocome more popular”

上述研究表明：在语音交互场景中，同样客观存在安全风险。如果前端语义解析出现对抗样本情形，在后端决策任务上引起了决策偏差，我们是否能够容忍这样的结果？

在文本领域而言，垃圾邮件检测、有害文本检测、恶意软件查杀等实用系统已经大规模部署了深度学习模型，安全性对于这些系统尤为重要。对抗样本也客观存在于文本信息之中，例如情感分析的任务：

当存在人察觉不出的语义扰动的输入后，模型会出现完全错误的情感判断结果。如果这样的情形出现在高安全系数的场景，例如无人驾驶语音交互、司法系统、金融系统等，将会存在巨大安全隐患，同时极大限制AI技术的场景落地部署。目前，文本领域研究较为初步，更具有挑战性。原因在于，文本信号和图像信号以及语音信号有本质的区别，对于连续变量（图像、语音）而言，有渐变的过程，我们有刻画它和其他量变化关系的办法（有可微分的操作）。而对于离散属性的文本数据，例如：“我”、“你”等等的离散符号，没有语义可理解的渐变过程，更没有直接的工具去刻画两个变量之间的相对变化关系。Embedding空间又已经大量丢失语义信息，同时存在不可逆的特征行为，这些短板对直接保证语义一致的文本对抗样本生成带来困难，同时也对提升文本表示鲁棒性带来了巨大挑战。最早的文本对抗的工作^[7]从语句角度出发，对阅读系统进行了攻击。目前，文本领域逐渐重视对抗样本的相关问题的研究^[8]。以2020年ACL的最佳论文^[9]为例，其中大部分测试方法其实和文本对抗攻击有异曲同工之妙。此外， Carlini等研究者^[10]对于目前火热的预训练语言模型进行了关键词触发式攻击，研究者从1800个生成候选序列中，发现有600多个序列是和训练数据重合的，其中有很多是用户隐私相关的信息，如下图所示：

实验表明：只需要对预训练语言模型进行查询，就极有可能提取该模型已记忆的训练数据，这样的现象对预训练模型使用用户数据隐私安全方面带来了质疑。

从模型结构维度来讲，seq2seq^[11]、Transformer^[12]、VAE^[13]的性能，研究者都进行了理论性探索。预训练结构模型^[14]同样不避免对抗样本的攻击风险。强化学习^[15]以及知识辅助的图表示学习^[16]范式无一幸免。

自然，对于鲁棒文本的研究，高效的评估方式也是前提，近期复旦大学团队给出一个综合的评估工具^[14]，对最先进的模型进行了大规模评估（超过67000个评估），几乎所有模型都出现明显性能下降，在情感分类、命名实体识别等自然推理任务上，BERT下降50%以上。

上述主要从图像、语音以及文本的实际案例出发，阐述对抗样本的存在现象。相关研究和实测实验表明：对抗样本的风险威胁是客观存在且具备可迁移能力的^[17]，同时也会牵连数据隐私安全问题。现有的研究追求性能泛化的极致，而忽略了模型安全可靠使用的前提。接下来，本文将介绍为什么会存在对抗样本这样的现象。

2.2对抗样本产生的原因

深度学习为何如此脆弱、容易受攻击、被欺骗和不安全呢？原因只能从机器学习理论本身去寻找^[18]。下面举一个简单的有监督学习的例子, 有监督学习可以形式化为以下的函数回归问题：从数据库中提取样本，对样本所反映的输入–输出关系做出估计，即从备选函数族(假设空间) 中选出一个函数使它平均逼近于真实。在深度学习问题中这个备选函数族由深度神经网络表示:

其中参数学习中有3项基本假设：

独立性假设：损失函数和备选函数族 (或者神经网络结构)的选择与数据无关；
大容量假设：样本数量巨大；
完备性假设：训练样本完备且无噪声；

如果上述假设均能满足，将随样本数的增加最后收敛于真实函数。机器学习的成功与否与3项假设密切相关，由于观察与测量数据存在不确定性, 所获取的数据一定不完备和含有噪声。这种情况下, 神经网络结构 (备选函数族) 的选择极为重要。从这里来看，对抗样本的出现是深度学习自生假设短板的直接体现。

对于对抗样本的存在原因，现阶段的研究给出其他不同的解释。在首次提出对抗样本的工作^[1]中，研究者指出深度神经网络模型的非线性导致的输入与输出映射的不连续性，加上不充分的模型平均和不充分的正则化导致的过拟合使得对抗攻击成为可能。而GoodFellow等人^[19]的研究则认为恰恰是由于模型损失函数的线性本身导致的：高维空间中的线性就足以造成对抗样本，以 , 举例( 是权重，是输入)。如果，为干扰，，也就是多出一个项，和维数很大时，即使很小扰动，累加起来也很可观。深度模型对对抗样本的脆弱性最主要的还是由于其线性部分的存在。通过将模型转变成非线性的RBF模型，就能减少神经网络模型对对抗攻击的脆弱性。作者提出的攻击算法也有效的证明了这个观点。到现在为止，对于模型内部结构的特性还没有明确的定论。Moosavi-Dezfooli等人^[20]在文献中证明了全局的扰动存在。分析给出对抗样本的存在是由于其分类器决策边界之间的几何相关性。

文献[21]从实验经验的角度进行了详细的分析，解释了对抗样本产生的原因，对抗样本不是仅在最后预测阶段产生误导，而是从特征提取过程开始就产生误导，下图展示了第147号神经元分别在正常深度学习模型和对抗样本中的关注区域。文中实验简述了利用深度网络模型VGG-16对“鸟”原始图像进行分类, 从该模型 pool 5层147号神经元的响应可以看出,该神经元最强烈的响应是“鸟”头部的某个局部特征, 机器正利用这个局部特征作为区分“鸟”的主要依据, 显然它不是“鸟”的不变语义特征。因此对于语义完全不同的对抗样本 (人物、啤酒瓶和马等), 由于具有与“鸟”头部相似的片段, VGG-16模型pool 5层147号神经元同样产生强烈的响应, 于是机器就把这些对抗样本错误地判断为“鸟”。

MIT团队从多维度的实验方案同样验证上述观点^[22]，对抗样本仅仅是一些特征，而且从模型泛化性而言，这些稳健或非稳健特征具备同等的重要性。研究表明，对抗样本的产生可直接归因于非鲁棒特征的出现：某些来自数据分布模式的非鲁棒特征具备高度预测性，但对于人类来讲是脆弱且难以理解的。

举个通俗的例子：你可以看轮廓区分鸡肉和青菜（稳健的特征，观测尺度大），科学家（类比于机器学习模型）可以靠显微镜看细胞的形状区分两个物体（不稳健的特征，观测尺度小）。你往一棵青菜上涂满肉汁（新的对抗样本），就能骗过科学家，但是这不是因为科学家整天呆在实验室学傻了。事实证明，对于现实中的青菜而言，科学家用显微镜分辨的能力不一定比你靠轮廓差（非稳健特征同样有强泛化能力）。

通过上述的分析和理解，对抗样本出现的原因有3点：1）机器学习假设的自生短板；2）数据的高纬空间属性；3）现有模型学习到的具有强泛化能力的特征中存在很多高度耦合的非鲁棒性特征。也就是说，这些非鲁棒的特征会过于敏感人不可察觉（小观测尺度，非语义级别）的输入变化扰动，从而带来完全错误的预测结果。根本原因在于目前的模型或者训练架构得到的特征表征空间和人的语义空间鸿沟过大（同一客观事物的观测尺度差异过大），自然也是这个原因导致了模型不可解释。从这个角度来看，模型鲁棒性在某种意义上可以看作是对于模型不解释性研究的弱化版本，都是想将这两者鸿沟减小，只是目的和程度不一样。自然，也有研究者想通过对抗样本视角进行模型可解释性的研究^[23]。此外，Bengio团队^[24]从因果表示学习的角度讨论了现代机器学习面临的三个问题，分别是解耦表示学习、可迁移机制学习以及干预式世界模型和推理学习, 其中构建独立因果机制的解耦表示学习正是有效提升模型鲁棒性的方法之一，所以从这个视角来看鲁棒特征表示也是构建因果性模型不可或缺的重要组成部分。

至此，上述内容简单阐述了研究鲁棒表示学习的研究动机和意义。接下来，本文主要从基于对抗样本的视角出发来简述鲁棒表示的现有方法。

简单来讲，提升模型的鲁棒性可以从对抗样本产生的原因出发。就是我们应该在保证模型泛化性的同时，尽可能的学习更加鲁棒的表示。然而，鲁棒性和模型泛化能力某种意义上存在平衡点：极致鲁棒的模型，泛化能力不佳；极致泛化的模型，又会偏向非鲁棒性的特征^[25]。鲁棒性和泛化性关系还存在争论，这样的内在关系，也对鲁棒表示学习带来了巨大的挑战。

3.现有方法

从对抗样本的产生机理出发，为了得到更加鲁棒的表示，我们从对特征空间直接和间接操作分成显示约束和隐式约束两个方面进行分类和梳理。如下图所示：

隐式约束：间接约束模型特征空间。其中包括对抗训练^[26]^[27]、数据去噪^[28]^[29]、模型蒸馏^[30]、确定性集成模型^[31]、随机性防御^[32]以及加入新的输入信息辅助；
显式约束：直接约束模型特征空间。其中包括特征解耦^[33]、特征选择^[34]、特征交互机制^[35]^[36]、辅助任务设计以及新的训练框架结构^[37]^[38]。

上述框图的防御思路有借鉴CV领域，同时大部分是自己所想。现有文本鲁棒表示相关研究的工作较少。目前文本相关的防御工作思路集中在对抗训练、数据去噪、特征解耦、特征选择等方法。

限于篇幅，本文主要介绍基于信息瓶颈进行特征解耦和特征选择的两份代表性工作。

3.1特征解耦

文献[33]提出一种基于信息瓶颈的通用鲁棒表示框架，并提出两种新颖的显式正则得到鲁棒的表示学习。文献的研究动机是对应于对抗样本原因的第二点（数据空间的耦合高维属性）的逆向思考。举个例子：耦合高维空间中的一个点受到微小扰动就会投影到其他轴线方向，那如果将特征空间解耦，在正交的高维空间中的一个点受到微小扰动，这个时候只会影响个别方向，降低扰动的全局影响程度，从而能够学习更加鲁棒的特征表示。因此，文献完整的思路就是通过信息瓶颈的方式强迫模型学习更加重要的特征成分，然后对这些特征成分进行解耦，从而实现鲁棒表示学习。

什么是信息瓶颈呢？信息瓶颈^[39]是1999年提出的平衡信息压缩和准确度的属于信息论中的一种方法。假设机器学习问题输入样本是，中间特征表示是，监督信息是。如下图所示：

信息瓶颈，通俗的讲希望特征和输入信息的共享信息越少越好，和的共享信息越多越好，这个时候的特征表示就利用越少的信息量完成任务，此时的特征倾向于泛化且更重要的特征。好比上面的沙漏，如果我们想用越少的信息量完成任务，中间瓶颈只能通过最重要且泛化的特征信息。形式化就是下式：

其中信息瓶颈利用互信息刻画了两个随机变量的共享信息有多少，也就是和。就好比沙漏的中间的口径，刻画了信息压缩的强度。整体上，通过信息瓶颈优化可以得到更加重要泛化的特征成分，相当于去除特征冗余。

有了纯净的特征之后，进行特征解耦，文献中提出两种正则的思路，第一种是将特征表示通过等维度的空间投影得到新的表示：

然后利用欧式度量去约束多个表示的距离，强迫使特征之间更加独立不相关，从而实现解耦，再通过参数化权重的方式聚合得到最终表示。

文献的主要贡献是提出第二种基于total corrlation（TC，本质也是互信息）的正则化方式，TC的定义：

其中是第个特征表示，TC刻画多个特征表示的联合分布和特征表示的每一个边缘分布乘积的距离。什么时候TC最小？也就是当多个特征表示之间彼此完全独立情形。因此，通过TC项约束，可以很好的迫使模型学习更加解耦的特征表示。

而信息瓶颈中互信息由于高维特性，不能直接计算，通过边界近似得到VIB框架的最终优化目标，详细推导内容可见论文附录。当把VIB中的监督信息y看做输入信息的时候，VAE就是VIB的一个特例。其实，文中的架构和beta-TCVAE有异曲同工之妙，同时beta-VAE的性能也在于内在KL约束部分的TC成分。

文章在实验部分，验证了所提架构在NER、POS、MT、CLS任务上的泛化性能，实验表明，所提架构在domain adaption上有一定提升。

此外，文章中也利用GAs^[40]和PWWs^[41]两种对抗样本攻击方式验证了所提框架在情感分类任务上的鲁棒性表现。如下图所示，实验结果表明，所提架构可以有效的得到更加鲁棒的特征表示。

文中通过可视化的技巧验证了解扰表示的有效性，下图中的第二部分显示，在加入正则约束后，不同的表示会明显偏重于某些token信息，表示之间信息更独立。

除了特征解耦的思路之外，还有一种直观的思路，就是进行特征选择。

3.2特征选择

相关的研究表明^[14]，基于Bert结构的预训练模型容易受到文本对抗样本攻击的威胁。文献[34]提出一种基于信息瓶颈的新训练架构，进行鲁棒微调, 在QA和NLI的多个任务上进行了验证。文献的主要贡献在于：1）提出信息瓶颈正则化器，它抑制了输入噪声和表示之间的噪声水平；2）提出锚定特征正则器，利用互信息的方式约束了局部稳定特征（词级表示）和全局特征（句级表示）的信息，提升全局特征的鲁棒性；3）从互信息的变化给出了对抗鲁棒扰动性能的上界分析。

事实上，InfoBERT的思路挺多借鉴了CV中自监督学习的思想。在CV领域，很多研究工作^[38]^[42]^[43]表明self-supervised的本质在于最大化输入和表示的互信息。同样，在NLP领域，也有研究工作^[44]从最大化单词序列不同部分之间互信息下界角度给出统一视角来理解语言模型（skip-gram、Bert、XLNET等）。

InfoBERT重点关注词汇级的攻击，因为这比较容易攻击成功而且对人来说不明显。由于自然语言的输入空间是离散的，很难在token层面做对抗扰动；相反，大多数词汇级的对抗攻击通过语义嵌入空间中的有界量来限制词汇扰动。具体方式可见原文。

信息瓶颈理论把深度学习的目标定义为编码压缩和预测能力之间的一种平衡。给定一个输入，一个DNN学习到一些中间层的表示，并且最大化和标签之间的互信息，从而使受其复杂性约束而包含足够的信息来推断标签。很多情形，为了便于处理，使用互信息的下/上界代替互信息做计算，本文中，相当于最大化这样一个下界：

这就是传统的信息瓶颈目标函数。

在InfoBERT中，我们把通过BERT embedding之后得到的词汇级表示作为，除了前面这个压缩噪声的信息瓶颈正则项，作者还提出一个锚定特征正则项，用来抽取局部稳定特征并将它们与句子的全局表示进行对齐，用来提升语言表示的稳定性和鲁棒性。这部分的目标就是找到带给下游任务稳定、有效信息的特征，但奇妙的是，实际上作者先去寻找了不稳定、不有效的特征。作者认为通过对抗攻击可以找到面对攻击容易发生变动的词，那么稳定的句子表示应该尽可能减少对这些词的依赖；换言之，通过检查对每个词的特征扰动，我们可以找到对下游任务不那么有用的词，例如停用词和标点，它们所带的有效信息很少，对应的对抗扰动也很小，可以直接丢弃这些词。那么剩下的就是有用的、稳定的特征，可以用来对其全局进行特征表示。抽出局部锚定特征之后，要做的就是把这些特征与句子的全局表示对齐，这里也是通过最大化互信息来实现的，具体在公式中，作为一个额外的正则项出现。

通过上述算法抽出局部锚定特征之后，要做的就是把这些特征与句子的全局表示对齐，这里也是通过最大化互信息来实现的，具体在公式中，作为一个额外的正则项出现。

最终的目标函数变成了：

为了更方便的计算，作者采用Info NCE作为互信息下界进行估计。

论文的实验中，用到的对抗数据集有ANLI、Adversarial SQuAD和TextFooler。在ANLI上的结果如下图所示。实验表明：Info BERT在鲁棒性方面有显著的性能提升。

4.总结

鲁棒表示是ML模型安全可信赖使用的前提保障。本文从对抗样本的视角出发，分析了对抗样本产生的原因：1）ML自生的假设短板；2）数据的高维空间属性；3）强泛化的特征中存在高度耦合的非鲁棒特征。此外，本文对特征空间的直接和间接操作将提升鲁棒性表示的方法进行了简单的分类梳理和总结。尽管鲁棒表示相关研究已经有了一定的进展，但是还存在很多问题边界值得思考和探索：

1）更好的约束不同尺度表示之间的工具？互信息能够很好建模约束对齐特征关系，但是现有工作都是通过互信息上下界估计进行计算。在更苛刻条件下，高效的互信息估计方法是我们急迫需要的。此外，是否可以考虑其他潜在更有力的工具刻画约束和调节特征关系，例如金融领域的copula理论^[45]，控制领域的控制论^[46]？

2）对抗训练对模型泛化性能有显著帮助，在其他方面是否也有增益？在NLP任务中，对抗训练除了防止潜在攻击风险之外，现有的研究反而更多的是作为一种regularization提升模型泛化能力。因此，利用对抗样本的情形是否还可以帮助其他问题研究，例如领域迁移、数据隐私等？同样的，如果把鲁棒性AI系统看做是有限条件下的机器学习的一个特例，同理，我们是不是可以考虑其他现实条件限制的机器学习问题，例如低功耗情形、信息带宽受限情形等？

3）机器学习系统，其他维度不确定性问题？抛开对抗样本输入而言，对于机器学习系统，存在不确定因素的地方还有很多，除了表示之外，归纳偏执的大部分实际问题是没有明确的定性定量的监督信息边界的（很多的监督信息不能精确的人为定义或者有重叠，同时逻辑不能自洽），以及模型内部的特征交互方式从自注意力机制到胶囊网络的路由机制以及全局空间共享，我们又该如何思考其中的不确定性问题？

或许有一天，人工智能系统真的可以强大到战胜泰坦巨兽-哥斯拉，造福人类，但是如果我们不能保证AI系统安全可控的前提，正如影片中那样，人工智能带给我们的将不是福祉，而是AI哥斯拉（图13）一样无法挽回的灾难。总体而言，在追求AI技术便利和性能极致的同时，我们更应该谨慎AI系统的安全可靠的问题，对其中可能存在的不确定因素进行风险规避。AI系统鲁棒性问题早在2018年9月美国国防部预先研究计划局的“AI Next”项目以及2020年10月提出中国第三代人工智能概念中明确了立场，近几年开始蓬勃发展，也慢慢成为一个有潜力的研究方向。