摘要

由于人工智能（AI）、机器学习，特别是深度学习的进步，可解释人工智能（XAI）研究领域最近受到了很多关注。XAI是一个研究领域，重点是确保人工智能系统的推理和决策可以向人类用户解释。在军事背景下，这种解释通常是为了确保：

人类用户对他们操作的人工智能系统有适当的心智模型。
专家可以从人工智能系统及其隐藏的战术和战略行为中获得洞察力并提取知识。
人工智能系统遵守国际和国家法律。
开发人员甚至在部署前就能发现人工智能系统的缺陷或漏洞。

本报告的目的是为基于深度学习的人工智能系统提供解释而开发的XAI技术。这类系统本身就很难解释，因为它们所模拟的过程往往过于复杂，无法使用可解释的替代方法来建模。

尽管深度学习XAI领域仍处于起步阶段，但科学文献中已经提出了许多解释技术。今天的XAI技术主要用于开发目的（即识别错误）。需要进行更多的研究来得出结论，这些技术是否也有助于支持用户为他们所操作的人工智能系统建立适当的心智模型、战术开发，并确保未来的军事人工智能系统遵循国家和国际法律。

关键词

人工智能、可解释人工智能、透明度、机器学习、深度学习、深度神经网络

1 引言

人工智能（AI）是一个对瑞典[1]和瑞典武装部队（SwAF）具有战略意义的研究领域。当今人工智能成功的主要因素是机器学习（ML）的突破，更确切地说，是深度学习（DL）的突破。DL是一种潜在的颠覆性技术，使我们能够使用深度神经网络（DNN）来模拟以前使用传统技术无法模拟的复杂过程。例如，DL可以用来准确地转录（语音到文本）[2，3]，翻译（文本到文本）[4]，合成语音（文本到语音）[5]，玩实时战略游戏（视频到行动）[6，7]，读取唇语（视频到文本）[8]，识别人脸（图像到身份）[9]和控制自动驾驶车辆（视频到行动）[10，11]。

然而，DL仍然处于起步阶段，没有一个数学框架可以用来保证模型的正确性[12]。因此，在军事应用中开发、部署、使用和维护DNN模型时，有许多挑战需要考虑和解决。

从军事用户（操作员、数据分析师等）的角度来看，最重要的挑战也许是可解释性。根据经验，当人的生命受到严重影响时，对可解释性的需求更大。在军事领域是这样，在医学、执法和其他民事服务领域也是如此。可解释性很重要，因为它影响着用户对系统的信任和依赖。信任关系必须是平衡的；过多的信任可能导致对系统的误用，而过少的信任则可能导致对系统的完全废弃[13]。最终，解释的目的是帮助用户建立一个适当的系统心智模型，以确保它能被有效使用[14]。

深度学习有可能改善复杂军事系统的自主性，如战斗机、潜艇、无人机和卫星监视系统。然而，它也会使这些系统变得更加复杂和难以解释。主要原因是，DL是一种端到端的机器学习技术，意味着机器学习从输入数据中提取最重要的特征，以实现高性能。这被称为表征学习，它与传统技术不同，传统技术是用人类的直觉来手动提取这种特征。表征学习往往能带来高性能，但它也要求模型具有高度的表现力和非线性。因此，使用DL训练的DNN可能由数百万甚至数十亿的参数组成。这使得它们很难向人类解释和说明，即使学习算法、模型结构、训练数据等都是已知的和很好理解的。

美国国防部高级研究计划局（DARPA）于2016年启动的可解释人工智能（XAI）计划也许是为解决这一挑战而采取的最全面的军事举措。该计划的目的是：

"产生更多可解释的模型，同时保持高水平的学习性能（预测精度）。"
"使人类用户能够理解、适当地信任并有效地管理新一代的人工智能伙伴"。

自XAI计划开始以来，已经取得了许多技术上的进步。一些XAI技术甚至已经实现并打包在软件库中，可用于深入了解、调试和验证DNN[16, 17, 18]。这是朝正确方向迈出的一步，但从军事角度来看，关键是XAI技术和工具也要为军事用户量身定做，因为在这些地方需要高级解释，以确保信任、使用和性能。

1.1 目的和范围

本报告的目的是介绍在DL背景下开发的代表性XAI技术。本报告并非详尽无遗，它并不涵盖文献中提出的所有XAI技术。

1.2 目标读者群

本报告的目标读者是操作、获取或开发AI、ML和DL技术以用于系统或嵌入系统的军事人员。

1.3 概要

第2章介绍了智能Agent、机器学习和深度学习的概念。第3章介绍了文献中提出的各种XAI技术。第4章介绍了可用于评估XAI技术所提供的解释的方法和技术。第5章介绍了一个案例研究，其中XAI被用来解释一个深度学习模型的行为。最后，第6章对报告进行了总结，并对未来的工作提出了建议。

2 智能Agent、机器学习和深度学习

本章介绍了一些概念、方法、术语和技术，是本报告的其余部分的基础。已经对智能Agent、机器学习和深度学习有基本了解的读者可以跳过本章。

2.1 智能Agent

人工智能是一个广泛的术语，可以有很多定义。在本报告中，人工智能是指对智能Agent（IA）的研究和设计。一个IA是一个能够在环境中感知、推理和行动的自主实体。通常情况下，IA与环境中的其他Agent（即多Agent系统）以及人类（如人机合作）进行互动。

当在物理世界中实施时，IAs可以代表从简单的恒温器到复杂的自动驾驶车辆、自主机器人、无人机等任何东西。在虚拟环境中，人工智能通常由能够翻译、转录等的机器人或虚拟助理来代表。在军事模拟中，IAs通常被称为非玩家角色（NPCs）或计算机生成部队（CGFs）。

图2.1说明了IA的主要组成部分。这些组件通常使用传统编程和人工智能技术的组合来实现，如专家系统、状态机、行为树和机器学习。本报告重点讨论完全或部分使用DNN实现的IA的XAI。

图2.1 - 智能Agent（IA）是一个能够在环境中感知、推理和行动的自主实体。环境可以是物理的（即现实世界）或虚拟的（如互联网、虚拟仿真、严格游戏）。IA通常与其他Agent、人类互动，分别形成多Agent系统和人机团队。

2.2 机器学习

ML是人工智能的一个子领域，重点是开发能够从观察和经验中学习的智能系统或IA。在本节中，将介绍ML中使用的主要学习策略。

2.2.1 监督式学习

在监督学习中，IA从已被标记或标注的训练样本中学习。学习的目的是使与这些样本的偏差最小化，同时保持对未见过的输入的概括能力。实际上，IA将模仿训练数据中的行为。图2.2说明了监督学习过程。

在监督学习中，标记过程通常是由人类手动完成的，这就是为什么这种方法在许多应用中可能是昂贵和不实用的。监督学习的主要优点是，一旦数据集建立起来，学习过程是稳定的，而且相对容易监控。

监督学习的主要应用是分类和回归，其中，离散类标签和连续值分别代表模型的输出。分类器可用于检测代理人视野中感兴趣的物体，或识别某一特定情况是否危险。回归通常用于对Agent的执行器（机器人肢体、方向盘位置等）进行低层次的连续控制。

图2.2 - 监督式学习。IA从已被标记或标注的样本中学习。学习过程的目标是创建一个模型，使其与所提供的训练样本的偏差最小。浅灰色的方框代表训练样本（即输入和它们的标签）。

2.2.2 强化学习

在强化学习中，IA通过在一个通常是模拟的环境中执行动作来学习。学习的目的是IA在模拟器中执行动作时使其奖励最大化。奖励通常由游戏的结果来表示，因此用于获胜或失败的行动分别由学习算法进行正向和负向强化。学习过程如图2.3所示。

强化学习的一个主要优点是，不再需要手动标注训练数据。相反，在某种意义上，奖励函数被用来自动标记数据。然而，为现实世界的问题设计一个奖励函数是一项非艰巨的任务。它要求随着时间的推移，适当的奖励可以被分配给IA的行动[19]。一个设计不良的奖励函数可能会导致不理想的和意外的行为。

强化学习被用于IA需要学习最佳行动选择策略的应用中。当应用于实时战略游戏时，IA可以比大多数人类专家更好地学习选择行动[6, 7]。因此，我们有理由相信，强化学习最终也能为军事目的产生替代的甚至是新的战术和战略。

图2.3 - 使用强化学习，IA通过在模拟环境中采取行动来学习。学习过程的目标是使环境提供的奖励信号最大化。浅灰色的方框代表输入，在这种情况下是一个模拟器和一个奖励函数，是这个学习策略所需要的。

2.2.3 无监督学习

在无监督学习中，IA学习识别无标签数据中的模式和结构，如图2.4所示。请注意，尽管被称为无监督学习，但总是由一个预先定义的指标指导。例如，k-means聚类算法使用欧氏距离对数据进行聚类。同样，自动编码器（AE）需要存在一个损失或误差度量函数。

无监督学习的最常见应用包括聚类、可视化、降维和异常检测。无监督学习在DL中的一个较新的应用是元学习，其中IA被训练的目标是成为更快的学习者（即学习如何去学习）。

图2.4 - 在无监督学习中，IA学习在未标记的数据中识别模式和集群。无监督学习由预先定义的指标（例如k-means聚类中的欧几里得距离）指导，从数据中学习。

2.3 深度学习

深度学习是一种机器学习方法，可用于上述所有的学习策略（即监督式学习、强化式学习和无监督式学习）。

2.3.1 深度神经网络

在DL中，用于捕捉和学习经验的模型由DNN来表示。DNN本质上是一个数学表达式，由大量的嵌套和可微分的子函数组成。第 2.3.3 节解释了 DNN 必须是可微分的原因。

DNN 通常使用图形进行可视化，其中各层节点用边相互连接，如图 2.5 所示。在这种表示方法中，每条边代表一个可训练的参数或权重，每个节点代表一个神经元（即一个可区分的子函数），使用权重将输入转化为输出。图2.6说明了一个神经元所进行的操作。该神经元首先计算其输入和权重的乘积之和。然后这个值被神经元的非线性激活函数处理，产生一个输出。然后，该输出被用作下一层神经元的输入。

在现实世界的应用中，权重（图2.5中的边）的数量通常会增长到数百万甚至数十亿。还要注意的是，除了图2.5中说明的全连接神经网络（FCNN），还有不同类型的DNN。卷积神经网络（CNN）用于数据中存在空间关系的情况，这在图像中是典型的情况。同样地，当数据中存在已知的时间关系时（如文本和音频），经常使用递归神经网络（RNN）。在现实世界的应用中，模型的设计通常是使用精心挑选的CNN、RNN和FCNN的混合。本节的其余部分主要讨论FCNN。然而，推理和训练的原则也同样适用于CNN和RNNs。

在本报告中，用来表示DNN的数学符号是fθ，其中θ代表DNN的可训练权重或参数。

图 2.5 - 一个具有四个输入、两个隐藏层和一个输出的全连接 DNN 的可视化。在这个表示中，每条边代表一个可训练的参数或权重，每个节点代表一个神经元（即一个可微分的子函数），使用权重将输入转化为输出。每个神经元计算其输入和权重的乘积之和。然后，该值由神经元的非线性激活函数处理，产生一个输出。

图2.6 - DNN中的神经元的可视化。首先，使用输入x和权重ω的乘积之和被计算。然后，这个值被送入神经元的非线性激活函数g，以产生一个输出，可以被送入下一层的神经元。代表一个神经元的数学表达式是。请注意，偏差b，也是一个可训练的参数，与权重不同，它不与输入相连。

2.3.2 推断

推理是一个过程，在这个过程中，输入被已经训练好的 DNN 处理，产生一个输出。在DNN中，处理是通过网络的各层向前传递进行的。计算图也许是描述推理的最直观的方式。在计算图中，DNN被模块化为原始的子函数，代表网络中嵌入的操作。作为一个例子，图2.7中的计算图表示有一个输入的神经元。使用这种表示方法，很容易看到输入是如何在图中向前移动（从左到右）时被转化的。

计算图可以被扩展到具有任意数量的输入、神经元和输出的DNN模型。在实践中，使用代表聚合层的计算图来设计DNN是很常见的。然后，不同的层可以相互连接，形成最终的 DNN。

图2.7--计算图表示一个神经元的操作，fθ(x)=g(x×ω+b)，有一个输入x和预训练的参数θ={ω，b}。计算图可以扩展到包括任意的输入和输出。在现实世界的应用中，DNN由代表神经元聚集层的计算图组成。

2.3.3 训练

训练是DNN，fθ，及其可训练参数或权重θ，被更新的过程。训练是一个迭代过程，目的是调整θ，使损失函数L(fθ)达到最小。在实践中，方程2.1中的梯度下降（GD）优化方法或其变体被用来执行更新。

在GD方法中，α代表一个超参数（即一个用于控制学习过程的用户定义参数），称为学习率。学习率α，控制着学习过程的速度。重要的是，α被适当地初始化，以确保可训练的参数能够收敛到一个最佳的解决方案。一般来说，如果α太大，训练过程就会变得不稳定，可训练参数就不会收敛。此外，如果α太小，训练将是稳定的，尽管它将花费太多的时间来收敛。由于这个原因，使用能在学习过程中动态地改变学习速率的调度器已经成为常见的做法。

方程2.1中的项表示可训练参数的梯度。梯度决定了更新可训练参数θ的方向，从而使损失函数增加。请注意，更新的方向与梯度的方向相反，以便使损失最小化。

为了找到这些梯度，我们使用了反向传播算法。给定一个训练实例（x, yˆ），反向传播算法首先执行一个前向传递来计算损失。给定损失后，再进行后向传递，使用链式规则公式计算梯度。同样，解释反向传播的最直观的方法是使用计算图，其中DNN由子函数的集合表示。要进行反向传播，所需要的就是找到这些子函数的导数。让我们用一个简单的例子来说明反向传播，其中DNN由线性函数fθ(x)=ωx+b表示，只有两个可训练参数θ={ω，b}。在这种情况下，损失函数可以定义为fθ(x)和期望输出yˆ的平方误差:

因此，损失衡量了DNN的预测是否接近已知的输出值，即y。当损失较小时，预测是好的。同样地，当损失大时，预测就很差。

图2.8显示了代表方程2.2中损失函数的计算图。除了前向传递，这个计算图还包括一个后向传递，利用链式规则将损失（或误差）传播到可训练参数θ={ω，b}。请注意，训练中只需要损失相对于可训练参数的导数（即）。逆向传播从设置开始。从这里很容易看出链式规则是如何将误差向后传播的（从右到左），从而找到和。关于本节所述的训练过程的演示，见附录A。

即使训练过程很简单，可以用计算图来解释，也很难理解和解释模型的行为。下一章将介绍为这些目的而开发的XAI技术。

图2.8 - 表示平方误差损失函数的计算图，。在这个例子中，fθ(x) = ωx + b和θ = {ω, b}分别代表模型和它的可训练参数，x和yˆ代表输入和它的期望输出（即训练数据）。

3 可解释人工智能的技术

可解释人工智能（XAI）研究的重点是确保人工智能系统的推理和决策能够被解释给人类用户。尽管由于DL的进步，XAI最近受到了很多关注，但XAI的研究领域并不新鲜。它至少在20世纪80年代就已经存在了[20]。对于XAI研究及其历史的全面回顾，读者可以参考[21]。

可解释人工智能是任何用于影响人类生命高风险决策的军事人工智能系统的关键组成部分。战术层面上的人工智能应用的例子，重点是短期决策，包括无人驾驶车辆的自主控制以及武器和监视系统的目标识别、跟踪和交战。此外，XAI在战争的战役和战略层面同样重要，甚至可能更重要，因为长期决策和规划活动可能影响整个团体。在这个层面上，人工智能系统通常用于信息分析，但也可以通过模拟来提出规划或行动方案（COA）。XAI在军事应用中的主要目的是：

心智建模[14, 22]。XAI可用于支持用户为其操作的人工智能系统建立适当的心智模型。在任何军事系统中，无论是否启用了人工智能，用户都必须清楚地了解系统的运行边界，以确保适当和有效的使用。
洞察力[23，24]。事实表明，DNN可以用来捕捉知识，并在对复杂过程的观察中找出人类未知的模式。使用XAI技术，人类有可能解开这些知识并从中学习。使用强化学习的战术和战略发展是一个典型的应用，XAI有可能在军事领域产生更深入的洞察力。
法律和法规[25, 26, 27]。XAI有可能被用来确保AI系统遵循国家和国际法律。也许人工智能最具有争议性的应用是致命的自主武器系统（LAWS）[26]。一些人希望完全禁止这种系统，而另一些人则认为应该允许使用致命性武器系统，因为它们有可能提高精确度并将附带损害降到最低[27]。尽管如此，作者认为XAI可以在制定政策的过程中发挥重要作用，以规范何时、何地以及是否可以使用LAWS等AI系统。
排除故障[23, 28]。在文献中，有许多XAI被用来识别DNN中的错误的案例。当图像中的版权水印或模拟器和游戏中的未知作弊器等现实世界数据中不存在的人工制品出现在训练数据中时，通常会出现BUG。第2.3.3节中介绍的训练过程可以学会利用，或走捷径，利用这种人工制品。其结果是，当呈现测试数据时，DNN工作得很好，但当呈现真实世界的数据时却失败了。如果将XAI技术作为开发过程的一个组成部分，这种问题可以在部署前被发现和解决。

本章介绍了在DL背景下专门开发的几种XAI技术。DL的XAI是一个重大挑战，因为DNN可能由数百万甚至数十亿的参数组成，使得它们不透明，难以被人类解释。请注意，据我们所知，拟议的技术还没有在军事背景下进行科学评估。因此，在这种情况下，这些技术能在多大程度上提供有用的解释还不得而知。第四章介绍了如何进行这种评估。

3.1 全局解释技术

全局解释技术提供了对 DNN 及其整体行为的洞察力。在本节中，我们主要关注可用于分析和可视化高维训练数据集的技术，但也关注如何获取和解释用于模型评估的性能测量。

3.1.1 大型高维数据集的可视化技术

在DL中，训练数据集通常由大量的高维样本组成。为了直观地检查这些数据集，它们必须被降低到人类可以观察到的维度（即一维、二维或三维空间）。在可视化中总结大型数据集可以提供关于DNN所要学习的任务复杂性的有用见解。它也可以用来识别数据集中可能对DNN的性能产生负面影响的假象[23]。下面是三种无监督的技术，可用于降低维度以达到可视化的目的。

主成分分析（PCA）[29]。这项技术确定了数据集的主成分。数据被投射到被认为是最重要的成分或向量上。PCA的主要缺点是它是一种线性技术，因此，它可能无法识别非线性数据的模式。PCA的主要优点是该技术很好理解（即它可以被解释），而且与其他技术相比，它的计算效率高。
可变自动编码器（VAE）[30]。这是一种DL技术，使用DNNs来降低维度。VAE由两个DNN组成：编码器和解码器。编码器的目的是将高维的输入数据压缩成一个潜在的空间向量（在这种情况下是一维、二维或三维）。解码器的目的是尽可能准确地使用低维潜空间表示重建高维数据。如第2.3.3节介绍的那样，使用损失函数对DNN进行训练，使原始输入和其重建的误差最小。一旦训练完成，只需要编码器来降低维度。这种技术的主要优点是它能够学习数据中的非线性因素。缺点是VAE是用不透明的DNN构建的，不容易向人解释。
t-分布式随机近邻嵌入（t-SNE）[31]。这项技术是专门为可视化目的开发的。与VAE类似，t-SNE使用GD程序来学习如何最佳地降低数据的维度。在这种情况下，目标函数的目标是保持邻域距离。t-SNE的优点是，它通常会产生更好的可视化效果。缺点是它的计算很复杂。

为了证明上述技术，将使用MNIST数据集[32]。这个数据集包含灰度图像，包括代表70000个手写数字的标签。每个图像由28×28像素组成，因此，数据的维度为784。图3.1说明了从数据集中随机抽取的15个样本。

图3.2中的可视化图（散点图）是使用从MNIST数据集中随机抽取的10000张图像的子集创建的。在这种情况下，使用PCA（图3.2a）、VAE（图3.2b）和t-SNE（图3.2c和图3.2d）将维数从784降低到2。这些图是用所有10000个数据点渲染的，每个数据点的标签都用颜色编码，这样人类就可以直观地检查出聚类趋势。在图3.2d中，数据集首先使用PCA进行预处理，在使用t-SNE之前将维度从784降低到50。这是使用t-SNE时的标准做法，以确保计算效率。图3.2中的可视化图提供了对数据集复杂性的洞察力。如果集群可以被直观地识别，那么DNN也很可能能够有效地从数据中学习。同样地，如果集群不能被识别，那么DNN也将更难从数据中学习。在这种情况下，PCA技术无法分离聚类。因此，不能指望线性分类器能有好的表现。

图3.1 - 从MNIST数据集中随机抽取的样本。样本的标签在图的说明中提供。

图3.2 - 使用主成分分析（PCA）、可变自动编码器（VAE）和t分布式随机近邻嵌入（t-SNE）在二维散点图中对高维数据进行可视化。在这种情况下，维度从784（代表28×28像素的图像）减少到2。这些图是用10000个数据点呈现的，每个数据点用其标签（0到9）进行颜色编码，以便人类可以直观地检查聚类情况。在图3.2d中，在使用t-SNE之前，数据集使用PCA进行了预处理，将维度从784降低到50。这是使用t-SNE时的标准做法，以确保计算效率。可视化提供了对数据集复杂性的洞察力。如果集群可以被直观地识别，那么DNN也很可能能够有效地从数据中学习。同样地，如果集群不能被识别，那么DNN也将更难从数据中学习。

3.1.2 模型评估

在训练机器学习模型时，模型开发者会不断测量模型在它之前未见过的输入数据上的表现，以确认模型是否在向有用的行为发展。当开发者对模型的表现感到满意时，就会停止训练过程，并使用未见过的测试数据进行最终评估。这个最终的测试衡量了模型在现实世界中应用时的预期性能，在那里它通常会遇到训练时没有看到的输入。测试数据集能在多大程度上被用来测量实际性能，取决于测试集与现实世界数据的对应程度。虽然在模型训练和调整过程中对性能的持续测量主要是对模型开发者有意义，但从XAI的角度来看，最终的性能测量对用户也是有价值的。

（1）对分类器的评估

在从图像中对军用车辆进行分类的例子中，每一类车辆都有数千张图像，相当一部分图像将被用于训练，另外一组图像将被分开，用于在训练期间对模型进行微调和测试，还有一组图像将被保留用于最终的性能测量。由于分类器在训练过程中没有看到测试集中的图像，因此测量它在这些图像上的表现可以了解模型在新数据上的表现如何。

在一个分类任务中，最直接的性能测量是计算正确分类的比例。这个衡量标准被称为准确性：

也就是说，如果车辆分类模型在100张图片上进行测试，85张图片被正确分类，则该模型在测试数据上的准确率为85%。如果不同类别的实例出现的频率相同，也就是说，数据是平衡的，那么准确率就会很高。

在水雷分类的例子中，任务是分析类似雷的声纳图像，并将该物体分类为雷或其他东西（通常是岩石）。在这种情况下，可能相对缺乏可供训练的雷图像，因为关于岩石的数据很容易收集，而关于雷的数据，特别是由敌对势力部署的雷，则不容易收集。

雷检测案例是一个不平衡问题的例子，如果测试数据集要反映真实世界的发生情况，那么它将包含比雷图片更多的岩石图片。作为一个例子，假设测试数据集中千分之一的例子是雷（其余都是岩石）。一个总是返回负面分类（不是雷）的分类器将在测试集上达到99.9%的准确率，因为999个分类中实际上是正确的。然而，它在寻找雷方面是无用的，因为在提交给它的实际雷中，它没有检测到任何雷。它的召回率为0%。

通过使分类器更容易对可疑物体返回正面分类（雷），可以提高召回率。在极端的情况下，一个总是返回正面分类的分类器可以达到100%的召回率，因为它可以捕捉到所有的雷和所有的岩石。然而，同样，它也是无用的，因为每一千次正面预测中，只有一次是正确的。它的精确度将是0.1%。

显然，一个好的探雷器，或任何分类器，都需要有合理的高精确度和高召回率的数值。也就是说，必须有可能相信正面的分类结果，足以投入更多的资源（如部署潜水员）。也必须有可能足够信任负面输出，以期望它能找到相当比例的实际存在的雷。然而，在现实中，这两者之间总是有一个权衡，正确的平衡取决于特定的操作要求。例如，如果不遗漏雷是很重要的，那么分类器将被调整为高召回率。然而，要付出的代价是较低的精度，导致更多的时间被用于调查岩石。

通过在测试数据集上运行分类器，计算有多少雷被正确分类（真阳性或TP），有多少岩石被正确分类（真阴性或TN），有多少岩石被误认为是雷（假阳性或FP），有多少雷被误认为是岩石（假阴性或FN），可以计算出准确率、精确度和召回率。这就产生了一个混淆矩阵，如表3.1所示。

表3.1--混淆矩阵的结构，将正确的正面分类（TP）、正确的负面分类（TN）、错误的正面分类（FP）和错误的负面分类（FN）的数量列表。

混淆矩阵是代表模型性能的一种紧凑但丰富的方式，从中可以推导出许多不同的度量。与同一行的其他数值相比，一个高精确度的模型具有较高的TP值（FP），或者更正式地说：

与同列的其他数值相比，一个高召回率的模型具有较高的TP值（FN），或者更正式地说：

与非对角线位置相比，一个高精确度的模型在所有对角线位置都有很高的数值，或者更正式地说：

矩阵中数值的其他组合产生了其他指标，每个指标都揭示了模型性能的某些方面。一般来说，一个具有不平衡数据的案例（这往往是现实中的常态）将需要更多的指标来衡量模型的性能。然而，对于面临问题，正确的指标集可以提供一个简明的图片，说明模型在实际环境的表现是怎样的。由于所有的指标都是从混淆矩阵中计算出来的，一个训练较好的分类器很快就能从中提取这些信息。

（2）多类分类器的评估

如果一个车辆分类器要区分坦克、摩托车和运输车辆，就存在一个多指标或多类分类问题。在这种情况下，混淆矩阵的行和列的数量将与类别的数量相同。图3.3是一个多类混淆矩阵的例子，任务是将手写数字的图像从0到9分类，也就是10个类别。

从混淆矩阵中计算出的度量可以概括为：通过比较对角线和其余部分给出准确度，而通过比较每个特定类别的对角线值与其行的总和（准确度）或其列的总和（召回率）给出准确度和召回率。因此，通过对矩阵进行颜色编码，就像在数字分类的例子中那样，仅仅通过检查就可以收集到很多信息。例如，从这个例子中可以看出，总体准确率非常高（将对角线与其他部分进行比较），但在不同的数字类别中，表现却有些不同。数字5有时会被误归为3或6或其他，反之，5有时会被误认为3。然而，数字1几乎不会与其他东西混淆。

图3.3 - 混淆矩阵说明了使用MNIST数据集识别手写数字而训练的DNN的性能。混淆矩阵可以用来深入了解该模型最可能与其他数字混淆的数字。

（3）回归模型的评估

在回归任务中，不可能计算正确的分类。相反，有必要将模型产生的连续值与测试集中的正确值进行比较。

作为一个例子，假设一个自主地面车辆（AGV）的避障模型正在被训练。AGV必须根据安装的传感器的输入产生一个转向信号。转向信号表示为-1和1之间的数字，其中-1表示左急转，1表示右急转，0表示不转，而两者之间的所有数字都是相应方向上的转弯等级。AGV已经根据人类操作员记录的数据进行了训练。它的测试方法是将它对给定的传感器刺激产生的转向信号，与记录的数据进行比较。例如，记录可能表明，检测到远处左侧的障碍物应该产生有限的右转信号（例如0.2），而检测到近处左侧的障碍物应该产生一个急剧的右转（接近1）。一个在后一种情况下产生急剧左转信号（-1）的模型，应该被判定为比另一个产生轻微右转信号（如0.2）的模型B表现更差。将模型的预测值与期望值相比较，显然，模型A与该值的距离是2，而模型B的距离是0.8。因此，模型B更接近于正确的行为。如果对测试数据集中所有实例的这种误差进行测量和汇总，例如计算平均误差，就可以得到模型性能的总体衡量。

回归的评估技术主要在如何进行汇总方面有所不同。平均绝对误差（MAE）取的是误差绝对值的平均值。该指标衡量模型预测与期望值的偏差程度。均方根误差取的是误差平均平方根。它对应于误差的标准偏差，与MAE不同的是，它对大偏差的惩罚更大。R平方（R2）将平均平方误差与信号本身的方差进行比较。因此，它首先对变化很大的信号容忍较大的误差。

3.2 局部解释技术

与全局解释技术相比，局部解释是用来解释对感兴趣的特定输入的预测的。这些输入可以是真实世界的例子，也可以是训练或测试数据集中的例子。DNN的输入基本上是由一串数值构成的，代表了一些现实世界的过程，如图像中的像素、文本中的字母、科学数据等等。因此，一个有300个像素的灰度图像在300个维度上表示它的数据，每个维度讲述故事的一部分（所有维度一起提供整体）。

本节重点讨论局部解释技术，其中显著性地图被用于解释。显著性地图通过对每个输入维度的相关性或显著性打分，来解释一个模型的输出。也就是说，它显示了每个维度在产生与该例子相对应的特定输出方面的重要性。对于一幅图像来说，这些显著性分数可以转化为热图，叠加在图像上，以表明模型在产生其决定时注意到哪些像素。图3.4提供了一个在模拟自动驾驶汽车的背景下生成的显著性地图的例子。

这里介绍的前两种技术是白盒技术。这些技术依靠访问DNN的内部表示（子函数、梯度等）来产生解释。其他技术是黑盒技术，可以通过查询模型（通常是多次）和选定的输入来产生解释。因此，黑盒技术往往需要更多的计算资源来产生其解释。

图3.4 - 突出显示了DNN用来控制模拟自驾车的最重要的输入像素的Saliency图。在这种情况下，代表道路右侧的像素似乎是最重要的。

3.2.1 梯度显著性

梯度显著性（也叫敏感性分析）是最早的局部解释技术之一，它被用来解释神经网络的行为已经有很长时间了[33, 34]。梯度显著性的想法是通过计算输入值的变化会在多大程度上改变模型的输出值来产生解释。输入值的变化会对模型输出值产生最大影响的输入被认为比其他输入对模型输出值更重要。在数学术语中，这被称为模型输出对给定输入（如图像）的导数。由于DNN训练使用导数，许多深度学习软件库可以直接计算梯度显著性。

图2.8中用来解释DNN训练过程的计算图也可以用来理解梯度显著性的工作原理。梯度显著性技术不是计算相对于可训练参数的导数，也就是训练过程中所做的，而是计算相对于输入的导数（即）。

梯度显著性的问题是，它不能区分影响模型输出的信号和DNN被训练为过滤掉的干扰物[35]。使用梯度显著性技术产生的解释往往是嘈杂的，也会隐藏模型实际使用的特征。解释哪些特征使输入的物体类型更多或更少，并不像解释哪些特征使其成为现实中的物体类型那样具有信息量[34]。

3.2.2 分层相关性传播

分层相关性传播（LRP）发表于2015年，是第一批使用理论框架来指导局部解释启发式方法发展的技术之一[36, 34, 37]。该理论框架的主要好处是，它提供了一种方法，可以找到适合于DNN中各层的多种类型的局部解释启发式，以及其他类型机器学习模型的局部解释启发式。

LRP首先假设为低层对每个输出值的贡献分配相关性，应该考虑哪些激活对输出值是必要的。从输入中去除这些相关的激活，最好能取消该输出值。例如，去除被归类为汽车的图像中的所有汽车特征，应该意味着该模型的汽车输出值为零。在数学术语中，这被称为模型函数的根，而LRP的想法是使用适合搜索这个根的局部解释启发式方法。

虽然没有已知的技术来优化搜索模型函数的根，但有一些对搜索的限制已被证明是足够的。例如，根的激活应该在输出值的激活附近，相关的激活应该在可能的输入空间内，而且只有输出值的可用相关性应该被用来给激活分配相关性。事实证明，这些约束条件足以找到将相关性从模型输出传播回输入的局部解释启发式方法。

LRP假设模型函数可以用数学技术泰勒扩展来近似。泰勒扩展将模型函数分解为简单的加法项，可以直接映射到神经网络组件。加法项意味着模型函数可以被分解为作为模型输出基础的每个激活的相关性分数。

LRP是一个局部解释启发法系列，使用这些技术进行相关性传播[37]。这些启发法专门适用于不同类型的神经网络层和层级。一些启发式方法还可以将输出相关性传播为有助于模型输出的正向激活和有损于模型输出的负向激活。这可能有助于识别缺失的特征，使模型输出的可能性更大。

3.2.3 沙普利加和解释

沙普利加和解释（SHAP）发表于2017年[38]，改进以前的一些方法，指出它们之间的数学共性，然后证明它们都可以通过使用一个特定的数学公式进行改进。

该公式由诺贝尔奖得主劳埃德-沙普利于1953年[39]在经济学的一个分支--博弈论领域提出。它计算出所谓的沙普利值，用于在参与方之间分配一些联合游戏的收益。该公式旨在根据一组合理性条件公平地分配收益，因此所有的收益都应该被分配；贡献大的行为者应该获得更多的收益；没有贡献的行为者应该一无所获；而且应该有可能将不同游戏的收益相加。事实上，沙普利表明，他的公式是唯一可能满足所有条件的公式。

就解释而言，第一步是观察机器学习模型的输入维度可以被视为参与模型产生输出预测的游戏的行为者。输出值可以看作是游戏的总收益，也就是要在玩家之间进行分配。进行公平分配就是在输入维度之间按其贡献比例分配输出值。换句话说，这样应用沙普利值，就会产生一个突出性掩码。这个观察在SHAP方法之前就已经提出了，例如在[40]和[41]。

最初的SHAP工作的贡献是观察到一些早期的方法所产生的解释都可以统一在一个共同的线性形式下，称为加和特征归属，也就是说，它们都有一个共同的属性，即它们产生的突出度值加起来就是要解释的模型的输出值。然后，[38]的作者设定了与上述条件相对应的稳定性条件，并证明沙普利公式是特征归属方法满足所有条件的唯一途径。由于之前的所有方法都在某种程度上偏离了沙普利公式（通常是通过应用一些没有太多理论基础的启发式方法），作者认为可以通过调整这些方法使其符合该公式来改进。因此，SHAP实际上是一个基于这些调整的方法系列。例如，调整LIME（见第3.2.4节）以符合沙普利公式，可以得到KernelSHAP，即SHAP的一个模型无关的版本。基于特定模型解释方法的SHAP版本继承了相同的模型特定性约束。

3.2.4 局部可解释模型诊断性解释

局部可解释模型-诊断性解释（LIME）在2016年发表时引起了极大的关注[42]，因为它是首批可以作为黑盒应用于任何模型的解释方法之一。LIME通过对样本进行扰动并观察所发生的情况来解释模型对输入样本的预测。

任何机器学习模型都将其输入和输出之间的关系表示为某种数学函数，由神经网络的权重和结构或其他参数来定义。这个函数反过来旨在捕捉一些现实世界的关系，例如，一串声音和一串单词之间的关系。一个典型的现代机器学习系统所模拟的功能是复杂的，这就是为什么简单地检查神经网络的权重并不能做很多解释。LIME不考虑函数的整体性，而是试图描述函数在要解释的例子附近的作用。通过以不同的方式扰动输入，它能够创建一个线性的，因此更简单的模型，该模型在与所提供的样本相似的情况下表现得接近于复杂的模型。这个线性模型的系数构成了对输入的哪些维度对模型的输出影响最大的直接测量，或者换句话说，这些系数是LIME版本的显著性掩码。由于LIME对模型所要做的就是给它提供不同的输入扰动并观察它的输出，所以对模型的内部工作没有任何了解。

3.2.5 用于解释黑盒模型的随机输入采样

用于解释黑盒模型的随机输入采样（RISE）是一种模型无关的局部解释技术，于2018年发表[43]。与LIME类似，RISE通过扰动输入并观察模型的反应来生成解释。因此，对于解释的生成，不需要了解模型的内部工作。

RISE通过随机生成掩码来扰乱图像，掩码使图像像素变暗。掩码是通过将图像划分为较大的区域，并随机选择哪些区域包括在扰动的图像中来生成的。模型对扰动图像的输出值描述了掩码覆盖图像区域的程度，这些区域对该模型类别的分类很重要。与覆盖较少重要图像区域的掩码相比，覆盖许多对分类很重要的图像区域的掩码会导致更高的模型输出值。通过随机生成许多掩码，RISE计算出每个图像区域的平均重要性。图像区域的重要性解释了模型的分类。

RISE的一个好处是，它使用大小均匀的图像区域来生成解释。因此，这些解释涵盖了与图像中的物体相同的图像区域。另一方面，LIME使用超级像素（类似像素值的连续区域），这可能无法捕捉到正确的图像区域。

3.3 混合解释技术

混合解释技术通过结合全局和局部XAI技术提供洞察力。混合解释技术不是只在个案的基础上使用局部XAI技术，而是在大量的案例上自动应用局部XAI技术，通常是整个数据集。然后，混合解释技术会比较所有的本地XAI结果，以确定模型表现不符合预期的情况。这种异常情况可以为进一步的模型开发提供信息，或者指出使用模型时需要考虑的性能限制。

3.3.1 谱系相关性分析

谱系相关性分析(SpRAy)技术是在[23]中介绍的。SpRAy是一种半自动化的技术，它使用整个数据集的分析方法来寻找模型性能不符合预期的情况。例如，在图像分类中，一个一般类型的物体，如狗或汽车，可能会出现在许多形式和背景中，但类似的物体形式和背景应该有类似的局部XAI结果。如果某些情况下的本地XAI结果与预期的不一样，这可能表明模型行为异常。依赖于现实世界中可能不存在的虚假和人为的相关性的决策策略，也被称为 "聪明的汉斯"行为。SpRAy包括五个步骤来寻找异常的模型行为：

用LRP计算相关性图（见3.2.2节）。
对所有的相关性图进行预处理，使其具有统一的形状和大小。
对相关性图进行谱聚类。谱聚类是一种成熟的技术，它将相似性矩阵（衡量案例之间的相似性）转化为增强相似性矩阵的聚类特性的表示方法[44]。然后可以在新的表示法中检测到集群。相关性地图之间的相似性是由成对的相关性图之间的欧氏距离计算出来的最近的邻居。两个相关性图之间的欧氏距离是由每个像素的每个颜色通道的强度差异计算出来的。
识别有趣的聚类。谱聚类计算出表明不相交或弱联系的集群的措施（特征值）。特征值的巨大差距表明集群是不同的。
一个可选的步骤是使用例如t-SNE（见第3.1.1节）对聚类进行可视化。

在[23]中，SpRAy被用来证明上一代机器学习技术--支持向量机（SVM）在图像分类中学习了虚假的相关关系。例如，SpRAy显示，该分类器使用了四种不同的策略对马匹的图像进行分类，检测马匹和骑手，在横向或纵向的图像中检测源标签，以及检测障碍物和其他环境元素。因此，在没有源标签和背景元素的实际应用中，这个分类器是不可靠的。将源标签添加到其他物体的图像上，如汽车，他们可以将分类改为马。

4 评估可解释人工智能技术

XAI的一个经常被忽视但很重要的方面是评估拟议的XAI技术的能力。第 4.1节从人类因素的角度介绍了评价标准，其中用户（如操作员或分析师）是衡量XAI加入人工智能系统后的效果的核心。此外，第4.2节介绍了可用于比较本地XAI技术的测试，如第3.2章中介绍的使用启发式的技术。

4.1 人为因素评价

对XAI技术的人为因素评估测试了解释是否考虑了所有对用户充分利用AI系统的重要因素。例如，用户可能有不同的目标、需求、知识、经验、任务背景、用例等。和许多类型的系统开发一样，在人工智能系统的整个开发过程中，从系统规范到最后的用户测试，都必须考虑这些因素。由于用于DL的XAI技术是一个新兴的研究领域，这些技术的最初用户往往是对评估模型性能感兴趣的系统开发者。这些XAI技术是否对军事用户也有用，在很大程度上仍然是一个开放的问题。在[22]中，已经提出了六个指标来评价解释。

解释善意。由一份检查清单组成，其中包括在开发XAI技术时从用户角度考虑的重要方面。该清单是基于对现有文献中关于解释的全面回顾，包括解释的七个重要方面，例如，解释是否有助于用户理解人工智能系统的工作原理，解释是否令用户满意，以及解释是否足够详细和完整。
解释的满意度。一个衡量用户在解释的好坏方面如何体验解释的量表。该量表由八个项目组成，这些项目被表述为声明（七个好的方面和一个关于解释对用户的目标是否有用的项目）。有效性分析表明，该量表是可靠的，可以区分好的和坏的解释。
促进心智模式的发展。好的解释会加强用户对人工智能系统如何工作以及为什么会做出特定决定的理解。在认知心理学中，这种表述被称为用户对人工智能系统的心理模型。推荐四个任务来测量用户对人工智能系统的心智模型，例如，一个提示性的回顾任务，要求用户在用人工智能系统执行任务后描述他们的推理，以及一个预测任务，让用户预测人工智能系统会做什么。用户的心理模型和专家的心理模型之间的比较显示了用户心理模型的完整性。
促进好奇心。好的解释会促进用户的好奇心，以调查和解决心理模型中的知识差距。我们建议通过让用户识别促使他们要求解释的触发因素来衡量好奇心。一些触发因素的例子是：人工智能系统行动的理由，为什么其他选项被排除在外，或者人工智能系统的行为不符合预期。
对解释的信任。一个好的心理模型能使用户适当地信任人工智能系统，并在其操作范围内使用它。建议使用一个包含八个项目的量表来衡量用户对人工智能系统的信任。例如，这些项目涉及用户对使用系统的信心以及系统的可预测性和可靠性。
系统性能。与只使用人工智能系统而不使用XAI相比，XAI的最终目标是提高系统的整体性能。性能测量的例子包括主要任务目标的完成，用户预测人工智能系统反应的能力，以及用户的接受度。

未来的研究将提供更多关于在评估人工智能系统的XAI技术时如何解释这些指标的信息。

4.2 评估本地解释技术

第3.2章中描述的本地XAI技术产生了突出性地图，以突出每个输入维度的重要性。根据模型所处理的数据类型，显著性图的可视化程度是不同的。例如，在处理图像时通常使用热图，而在处理文本时通常使用彩色编码的字符和词。

图4.1展示了一个使用热图可视化的显著性图的例子。在这个例子中，热图是为数字0（图4.1a）生成的，使用了梯度显著性（图4.1b）和LRP技术（图4.1c）。重要的维度（即图像中的像素）由较暖的颜色（如红色、橙色、黄色等）表示，而非重要的维度则由较冷的颜色（深蓝、蓝、浅蓝等）表示。这两种技术之间的明显区别可以从高亮维度的位置上直观地观察到。本节的其余部分介绍了可以用来定量比较和评估不同技术所产生的局部解释的技术。最终，我们的目标是找出哪个解释是最准确的。

图4.1 - MNIST图像及其相应的热图，使用梯度显著性和LRP技术生成。图像中的重要维度或像素用较暖的颜色（如红色、橙色、黄色等）表示。

4.2.1 删减

删减[43, 34]是一个指标，通过测量模型在输入逐渐被扭曲或删减时准确做出预测的能力来计算。请注意，在这种情况下，删减意味着将输入的值转换为中性的东西（例如，图像的背景）。删减过程是由XAI技术产生的显著性图指导的，因此更重要维度的值会在不太重要的值之前被删减。这个指标的直觉是，如果在删减过程中，性能下降很快，而不是很慢，那么解释会更好。

图4.2使用图4.1b中的梯度显著性图说明了删减过程。在图4.2b中，50个最突出的像素已经被删减。在这个阶段，很容易推断出该图像仍然代表一个0。在图4.2f中，超过一半的像素（400）已经被删减。在这个阶段，要推断出图像实际代表数字0要困难得多。

图4.2 - 由MNIST图像的删减过程产生的图像，其中0、50、100、200、300和400像素被删除。

4.2.2 插入

插入指标[43]是对删减的补充方法。图4.3说明了在删减例子中使用的同一MNIST图像的插入过程。从最初的输入（用黑色图像表示）开始，随着越来越多的输入维度被插入，按照突出度图的优先顺序，测量准确度的增加。这里的直觉是，当更多的信息被插入到输入中时，模型预测的准确性应该增加。也就是说，当增加的速度快时，与增加的速度慢时相比，解释会更好。

图4.3 - 从MNIST图像的插入过程中产生的图像，其中0、50、100、200、300和400像素被插入。

4.2.3 评价指标

为了证明删减和插入的使用，使用梯度显著性和LRP技术来衡量这些过程。在这种情况下，使用分类器对XAI技术进行了评估，该分类器从MNIST数据集中随机抽取了100张图像。

图4.4和图4.5分别显示了删减和插入过程的结果。曲线下的面积（AUC）是一种测量方法，可以用来定量比较XAI技术。对于删减，较小的AUC值要比较大的值好。同样，对于插入，较大的AUC值比较小的值要好。

在图4.4中可以看到，LRP技术的性能曲线的下降更加尖锐，并在使用删减过程时收敛到一个较低的平均概率值。这与它的热图是一致的，与梯度显著性的热图相比，它突出了较少的特征（图4.1c和4.1b），表明与梯度显著性相比，LRP在较少的特征下更快地找到了解释。同样的结论可以从使用插入过程的结果中得出（图4.5）。在这里，只需插入几十个特征，就能观察到平均概率的快速增加，在插入大约100个特征后达到高性能。

图4.4 - 梯度显著性和LRP的删减曲线。

图4.5 - 梯度突出性和LRP的插入曲线。

5 实验结果：关于解释自然语言预测的案例研究

在自然语言处理（NLP）领域，一个常见的机器学习任务是让人工智能系统评估一个文本在多大程度上表达了消极、积极或中性的情绪（即情绪分析）。诸如 "我非常高兴和感激！"这样的句子显然表达了积极的情绪，而 "我希望他很快见到他的造物主 "显然是消极的，而 "他昨天到达 "可以被认为是中性的。积极的例子包含了直接标明它是积极的词语，而消极的例子则需要对语言有更深的理解，才能抓住其明显的消极含义。因此，一个文本可以在它所表达的情绪的种类和程度方面有所不同，也可以在它如何直接表达方面有所不同。为了理解人工智能系统是如何试图理解输入到它的文本中的情感，可以应用第4.2章中用来解释图像分类的同类技术。

5.1 情绪分析预测器

情绪分析模型是所谓的SentimentTagger模型的简化版，该模型主要被内部用来预测推文（即Twitter上的帖子）中的情感。SentimentTagger模型由一个DNN和一个更传统的NLP模块组合而成。在这项工作中，只使用了该模型的DNN部分。DNN模型是使用递归（即RNN）和全连接（即FCNN）神经网络层的组合设计的。RNN部分使用一种叫做长短时记忆（LSTM）的技术来实现，该技术专门为一个句子中的单词或字符之间，甚至是跨句子的远距离依赖关系建模。例如，在 "我昨天以便宜的价格买的车今天坏了 "这句话中，事件 "坏了 "指的是 "车"，尽管它们被其他文字分开。

在SentimentTagger中使用的特定LSTM是通过将传入的文本（一条推文）分解成其组成字母来观察的。更确切地说，它看的是字符，如字母，但也包括标点符号、空白、表情符号等等。然后，该模型提取出一个善于模拟情感的中间表征。这个中间表征然后被送入FCNN以产生最终的情感预测。预测是一个在0和1之间的连续值，其中0是最消极的，1是最积极的。因此，这是一个回归模型，就解释而言，这意味着解释不是对预测一个特定类别的贡献，而是对该特定输出值的贡献。

SentimentTagger的预测过程如图5.1所示。表5.1中还提供了该模型预测的一些例子。表5.1中前三条推文的预测结果与人类判断的真实情感值很一致。接下来的三条是低估了积极情绪的例子，而最后三条是低估了消极情绪的例子。对于一些例子，如第六个例子，可以说SentimentTagger比人类标签者做得更好。在所有情况下，了解SentimentTagger的估计依据是什么，将是有益的。

图5.1 - SentimentTagger的结构。一条推文被送入LSTMRN，它产生一个中间表征。然后将其送入FCNN，反过来产生最终的情感预测。

表5.1 - SentimentTagger对推文进行情感预测的例子。

5.2 解释方法

为了对SentimentTagger产生的预测进行解释，我们采用了模型诊断性的LIME和SHAP技术。SHAP的版本（KernelSHAP）实际上是对LIME的修改（根据[38]中提出的一般公式），这使得比较变得有趣。在这种情况下，选择与模型无关的方法的原因是，不同类型的神经网络的串联使得应用特定模型的方法变得非同寻常。

SentimentTagger分析推文所包含的字符，而不是在词的层面。显著性解释的最直接表述是指出一条推文的每个字符对该推文的情绪预测有多大贡献。图5.2a给出了这样一个解释的例子，SentimentTagger预测该条推文的情绪为中性（0.47），而人类判断的数值为轻微的消极（0.31）。那么，是什么推动了这种预测呢？在这里，颜色编码被用来表示每个字符对增加或减少情感预测的贡献。蓝色表示消极贡献（即消极情绪），红色表示积极贡献（即积极情绪）。接近透明紫色的颜色代表中性情绪。

这个例子似乎表明，"更好 "这个词中的字符做出了积极的贡献，而 "坏 "这个词中的字符做出了消极的贡献，而其他字符则提供了一个不太清晰的画面。从单个字符的显著性归因中得出结论是很困难的，因为字符本身并不真正意味着什么。因此，虽然可能有理由让情感预测模型在角色层面上工作，但可能应该在一个综合的层面上提供解释，以更好地映射到实际意义。

如果将字符级别的归因汇总到包含相应字符的每个词上，结果就会出现图5.2b中的可视化。出现的画面更加清晰，不仅可以看到 "更好 "和 "坏 "对预测的推动作用有多大，而且还可以看出 "什么时候"的轻微积极作用和 "某人 "和 "不耐烦"的轻微消极作用。最后，还可以注意到，"红色 "和 "蓝色 "的数量似乎大致相当，这解释了为什么SentimentTagger决定对情绪进行中性评价。在后面的例子中，到单词级别的解释是可视化的。

图5.2 - 一条推文，根据其对该推文的情感预测的贡献，对字符和词进行了颜色编码。红色表示对积极情绪的贡献；蓝色表示对消极情绪的贡献。在这个案例中，模型预测的是中性情绪（0.47），而人类标注者对情绪的判断是轻微的消极（0.31）。词级显著性的可视化似乎更清楚地映射了句子语义的重要性。

5.3 定性结果

表5.2显示了九个在不同方面都很有趣的推文例子。颜色对应的是由SHAP做出的显著性归因（然后如上文所解释的那样汇总到词级）。预测栏列出了由SentimentTagger预测的情感值，而真实值栏则显示了由人类判断分配的值。一个词越红，说明组成它的字符越多，共同推动了预测值的上升。反之，一个词越是蓝色，它的字符越是把预测值推低。

对于前三条推文，SentimentTagger的预测与人类的情绪判断（在真值一栏）相当一致。尽管达成了一致，但有趣的是，SentimentTagger看了哪些词来得出其预测结果。在第一条推文中，"愚蠢的"、"可怕的"、"丑陋的"、"糟糕的 "和 "不 "促使情绪向消极方向发展，但 "父亲 "一词是一个更强大的消极驱动因素。可以询问SentimentTagger是否发现了消极形容词与 "父亲 "的组合，或者它是否足够成熟，能够识别出 "不是他们的父亲 "是一个有害的声明。第三条推文更清晰；"微笑 "做了大部分的积极作用。

第4条和第5条推文是SentimentTagger将消极情绪分配给实际上相当积极的推文例子。诸如 "医院"、"走了 "和 "眼泪 "等词被表面上解释为消极的，而对上下文的正确理解会否定这种判断。6号推文似乎也显示了预测和真实情绪之间的差异。然而，可以说，问句形式所表达的不安全感实际上使预测比指定的标签更接近事实。

在例子7到9中，关系是相反的，即预测严重低估了推文中表达的消极程度。一些被遗漏的消极情绪可能源于拼写错误，如 "appauling"（7），缺失空格，如 "worstairline "和 "beyondajoke"（7），以及口语化的缩写，如 "tf"（9），尽管一个字符级的LSTM预计会比一个单词级的更好地处理轻微的拼写错误和空格缺失。其他错误则更难解释，如 "令人震惊"、"可怕"、"凄惨"（7）和 "刺激"（9）。例子8似乎表明，SentimentTagger错过了 "刺激 "和 "高 "之间的联系。

表5.3显示了LIME对相同推文产生的显著性归因。虽然SHAP的归因在很大程度上是可理解的，但并不完全符合直觉，LIME的版本则在很大程度上令人困惑。少数与直觉相符，如 "可笑"（1）、"欣赏"（2）和 "乐观"（6），其中前两个没有被SHAP强调。有些直接与直觉相抵触，例如 "无用"（7）和 "微笑"（3），后者也与SHAP相抵触。然而，大多数只是显得很随意，如 "ajahnae"（1）、"ago"（2）、"will"（5）和 "today"（8）。这些不直观的解释是否表明SentimentTagger存在SHAP没有发现的故障，或者SHAP的更直观的归因是否更准确地描述了LSTM实际在做什么？KernelSHAP在理论上是LIME的一个更好的基础版本，这一事实表明了后者，但这些定性的结果不能提供任何证明。为了更客观地比较这两种解释方法，在下一节将进行定量分析。

表5.2 - 选定的推文，按SHAP的显著性数值进行着色，这些数值已经汇总到单词级别。

表5.3 - 选定的推文，按照LIME的显著性数值进行着色，这些数值已经汇总到单词级别。

5.4 特征删减分析

正如第4.2.1节所解释的，删减指标通过按照XAI技术赋予特征的显著性顺序来测试解释方法的性能。一个好的XAI技术应该对那些对预测模型的输出很重要的特征赋予很高的显著性，因此按照这个顺序删减特征会使模型的性能急剧下降。在本案例中，按照突出性顺序要删减的特征是字符，在这种情况下，删减一个特征意味着用一个空字符来代替它，比如一个制表符或一个空格，而预测模型是SentimentTagger。我们在一批500条推文的例子上对SentimentTagger的SHAP解释和LIME解释都进行了删减测试，然后绘制了模型的预测性能如何随着删减的特征（字符）数量而下降。此外，作为一个基线，我们用一个随机掩码进行删减，导致特征以随机顺序被删减。由于SentimentTagger是一个回归模型，它的性能不能用准确性来衡量。相反，我们使用了R2指标，该指标代表了对训练好的模型解释测试数据中的差异的程度的衡量。

图5.3显示了SentimentTagger的R2性能作为删减数量的函数，分别按SHAP、LIME和随机掩码排序。很明显，删减测试有利于SHAP，因为它的曲线按照突出性归因的顺序迅速下降，而LIME的相应曲线则明显不那么陡峭。LIME在删减测试中的表现只比随机掩码略好。因此，SHAP似乎在识别少数特征（字符）方面做得更好，没有这些特征，模型就无法准确预测。这也许并不奇怪，因为Shapley公式的设计就是为了做到这一点，而LIME则依赖于更多技术上的启发式方法。然而，通过有选择地将少数几个字符替换为空白，甚至有可能完全消除SentimentTagger的性能，这一事实可能是关于此类模型的稳健性（或缺乏稳健性）的一个有趣的迹象。

更值得注意的是，在SHAP案例中，R2值在最初的10次左右的删减后实际上下降到了零以下，然后随着更多的删减被执行，又向零移动。这意味着第一组删减实际上导致模型的表现比忽略其输入并总是做出相同预测的模型要差。随着更多的删减，模型的预测将趋向于中性预测，即对应于一个空推文，这相当于忽略输入。因此，R2值会收敛到零。

图5.3 - 对SentimentTagger预测的SHAP和LIME解释的删减分析。随机顺序的删减被用作基线。该图显示了对模型性能的影响，如R2指标所衡量的，当特征按突出性顺序被连续删减（即字符被连续删减）时。SHAP曲线最初的陡峭下降表明，SHAP善于发现哪些特征对模型性能最为关键。低于零的跌幅表明，战略性的删减会导致模型做出的情感预测与人类标注的真实情感相矛盾。LIME的缓慢下降表明LIME的显著性值在寻找哪些特征对模型性能最关键方面不如SHAP值，只比随机删减稍好。

6 结论

深度学习将被用于补充和取代军事系统的某些功能。事实上，DL技术已经在军事监控系统中得到了应用，以自动检测和跟踪大量图像数据中感兴趣的物体[45]。与传统的软件技术相比，DL有几个优势。最重要的是，DL可以用来为那些使用传统软件技术无法建模的复杂过程建模。它还可以促进主动学习，即人工智能系统与用户互动，以获得高质量的数据，这些数据可用于增强运行中系统模型（即部署后）。

不幸的是，这些优势也带来了重大挑战，不仅在技术上，而且在操作上都需要解决。在本报告中，重点是可解释性的挑战。DL的一个主要缺点是，即使学习算法、模型结构和训练数据是已知的，并且被很好地理解，但模型本身的行为却不是可解释的。在许多用于音乐推荐和广告目的民用应用程序中，这通常不是一个问题。然而，在军事领域，理解和解释人工智能系统的行为是至关重要的。在这种情况下，人工智能系统提供的决定和建议可能会对人类的生活产生深刻的影响。这在使用自主武器和无人机的战术层面是有效的，在军事领导人和政治决策者做出长期决定的作战和战略层面也是有效的。

也许有人会说，复杂的军事系统，如战斗机、潜艇、坦克和指挥与控制的决策支持工具，也是难以掌握的。虽然这是事实，但用于建立这些系统的技术本质上是可以解释的。因此，如果出了问题，有可能完整地检查系统以识别和纠正问题。而在DL中，情况并非如此。主要原因是，在现实世界的应用中，DNN经常由数百万甚至数十亿的参数组成。因此，即使是这些模型的创建者也没有能力系统地解决模型中可能存在的错误。

在这份报告中，探讨了为解决可解释性挑战而提出的几种最先进的XAI技术。尽管已经取得了一些进展，但可以得出结论，用于军事领域DL应用的XAI仍然处于起步阶段。最终，即使已经提出了许多XAI技术，它们还没有在军事背景下被检测过。因此，不能保证现有的XAI技术能够在高风险的军事AI系统中使用DL。

在为军事目的开发人工智能系统时，我们建议在采购和开发过程中尽早确定可解释性和可解释性要求。最重要的是，这些要求的定义是可行的和可验证的。也就是说，这些要求必须符合在可解释性方面实际可能的期望。

在未来的工作中，我们打算开发一个评估框架，可以用来支持军事人工智能系统中XAI能力的发展。

FOI

FOI，瑞典国防研究局，是瑞典国防部下属的一个主要任务资助机构。其核心活动是研究、方法和技术开发，以及为瑞典国防和社会安全利益而进行的研究。该组织雇用了约1000名员工，其中约800名是科学家。这使得FOI成为瑞典最大的研究机构。FOI为其客户提供了大量领域的前沿专业知识，如安全政策研究、国防和安全相关分析、各种类型威胁的评估、危机控制和管理的系统、有害物质的保护和管理、IT安全和新传感器提供的潜力。

成为VIP会员查看完整内容

150

摘要

关键词