一、超越负责任的人工智能：实现可审计人工智能的 8 个步骤

在当今的诉讼环境中，人工智能驱动的商业决策必须不仅仅是可解释的、合乎道德的和负责任的；我们需要可审计的人工智能。

您的 AI 能否通过监管机构？

随着主流商业世界从人工智能的理论使用转向生产规模的决策，可审计的人工智能是必不可少的，因为它包含的不仅仅是负责任的人工智能（强大、可解释、合乎道德和高效的人工智能）的原则。可审计的 AI 还提供通过监管审查所需的文件和记录，其中可能包括以下问题：

什么数据用于构建机器学习模型？数据是否代表生产环境？如果/当它们在开发阶段被发现时，如何解决数据偏差？
模型中使用的派生变量是什么？他们有偏见吗？治理团队是否批准在模型中使用变量？
利用了哪些特定的机器学习算法？它们是否适合正在解决的数据和问题？
模型是否完全可解释，具有解释模型做出的自动决策的准确原因代码，对模型用户和受影响方都可解释？
该模型是否设计为可解释的？推动结果的潜在特征是什么？他们是否进行了偏见测试？
对模型进行了哪些稳定性测试，以了解和纠正生产数据的变化？
是否有特定的监控要求来确保监控数据漂移、性能漂移和伦理治疗漂移？
当生产客户数据从模型训练的内容转移时，有哪些不起眼的 AI权宜之计可以降级到更安全的模型？
模型如何感知对抗性 AI攻击以及如何响应？

为什么可审计性很重要

需要注意的是，尽管“审计”一词具有事后的含义，但可审计的 AI 强调在模型构建期间和模型投入生产之前制定（和使用）明确规定的工作记录。

可审计人工智能通过在模型生产过程中创建公司记录的开发治理标准的审计跟踪，使负责任的人工智能成为现实。这可以避免在模型开发完成后进行随意的事后探测。还有额外的好处；通过尽早准确地了解模型何时出偏差，以便快速补救，公司可为自己省去无尽的痛苦，避免当人工智能在数据科学实验室之外出现问题时发生的声誉损害和诉讼。

可审计的人工智能可以帮助防止法律挑战

法律成本、声誉受损和客户不满只是受到 AI 倡导团体审查的沉重成本中的一小部分，而可审计的 AI 可以帮助防止所有这些成本。采用可审计人工智能将通过在整个模型开发过程中记录关键决策和结果来确保公司的人工智能标准得到遵循和执行。

尽管建立必须衡量、审查和批准的精确信息并非易事，但这样做会给公司带来两个宝贵的优势：

他们可以永久保存模型开发信息，以供以后审查和审计（由于数据科学人员流动性特别重要）。
使模型构建能够自信地进行，因为它们遵守公司的书面标准和“护栏”，以防止出现偏差。

构建可审计人工智能的步骤

如果没有严格的模型开发标准和指导方针，公司就很难出具始终如一地跟踪合规性的审计报告，以及用于确保投入生产的模型公平、公正和安全的关键数据。

在某些情况下，模型治理的关键部分简单而令人不安地没有得到解决。从研究模式到生产模式的转变需要数据科学家和公司有一个明确的标准。创新应该由 Highlander Principal 推动（“只能有一个”），因此您的组织在开发可审计的 AI 时需要提出以下问题：

当今的分析组织结构如何？是有一个领导者，还是有多个领导者矩阵？如果是后者，他们之间的协调程度如何，或者他们将如何相互协调？
现有的分析型领导者治理委员会是如何构成的？如何决定什么构成 AI 算法的可接受性以及公司围绕使用 AI 的理念？标准将如何记录？
负责任的人工智能是如何解决的？是否有积极的监测计划？它是如何运作的？不可变的区块链技术是否被用于保存每个模型如何满足标准记录系统，这个系统是否持续存在于个人数据科学家和组织变动之外？
数据道德计划和数据使用政策的状态如何？如何测试和使用合成数据？正在进行什么样的稳定性测试以确保模型能够在不断变化的生产环境中有效运行？
人工智能开发标准是什么？提供了哪些工具和资产？哪些算法是允许的，哪些不是？从模型操作的角度来看，可审计 AI越来越需要标准工具和标准变量库。这些选择是如何做出和维持的？是否有通用代码库和日常回归测试？如何提取和测试学习到的潜在特征的适用性、稳定性和偏差？
公司如何实现道德人工智能？组织中允许使用哪些 AI 技术，如何对其进行测试以确保其适合市场？今天是否对每个模型进行了监控，如果有，监控的是什么？理想情况下，这包括数据漂移、性能漂移和伦理治疗漂移。什么是预设的阈值以指示何时不应再使用模型？
公司围绕人工智能研究的理念是什么？公司是否努力证明其具有创造性，表明其对人工智能投资的更高风险的容忍度？还是该公司更保守，希望确保它使用的是受监管且易于监控的成熟技术？或者它会采取一种混合方法，一个团队负责展示人工智能的潜在艺术，另一个团队将其付诸实践？
公司的 AI 是否符合道德规范？是否将一些高风险模型置于“负责任的人工智能”的保护下，而受到监管，而另一些根本不符合“负责任的人工智能”标准？这些分界线是如何设置的？在人工智能的发展过程中不负责可以吗？如果是这样，什么时候？

诚然，有无数问题需要回答，实现可审计 AI 似乎令人生畏。但是已经有可以很容易采用的最佳实践框架和方法，提供关键的构建模块。如今，大多数组织都在将 AI 部署到一个充满风险的空白中，因此真正迫切需要实施可审计的 AI。人工智能的未来，以及我们所知道的商业世界，都取决于这种强大的技术以同样强大的方式进行管理和监控。

二、德国联邦信息安全局等十余个单位联合发布《迈向可审计人工智能系统：现状和未来方向》的白皮书

0 执行总结

人工智能 (AI) 系统作为决策和控制系统的一部分在各种应用中发挥着越来越大的作用，其中包括移动、生物识别和医学等安全和安全关键应用领域。与传统 IT 技术相比，深度神经网络等 AI 技术的使用提供了新的机会，例如卓越的性能。同时，它们在 IT 安全性、鲁棒性和可信赖性等方面提出了新的挑战。为了应对这些挑战，需要一个普遍认可的人工智能系统审计框架。这应该包括评估策略、工具和标准，但这些要么正在开发中，要么尚未准备好投入实际使用。

本白皮书首先总结了 AI 系统的机遇和挑战，然后介绍了 AI 系统可审计性的最新技术，重点关注 AI 生命周期、在线学习和存在漂移、对抗，毒化攻击、后门的模型维护等，和针对这些攻击的防御、验证、安全关键型 AI 系统可审计，黑盒 AI 模型可解释和 AI 标准化。

尽管所有这些方面都取得了实质性进展，但一个首要的开放问题是（通常是多方面的）系统所需特性之间的权衡，例如一方面是鲁棒性、安全性和可审计性，另一方面是 AI 模型、ML 算法、数据和进一步边界条件的特征。这些权衡限制了当前 AI 系统的可扩展性和通用性。

为了最终以安全、可靠、稳健和可信赖的方式利用人工智能技术的机会，应结合两种策略： 1. 考虑到上述权衡，应为给定任务选择有利的边界条件； 2. 应通过对研发的大量投资来推进现有技术，以最终在复杂的边界条件下允许安全的人工智能系统，从而提高可扩展性和普遍性。第一步，应该关注选定的安全关键用例。应利用可用的标准、指南和工具，并进一步促进研究人员和行业之间的跨学科交流，以找到可用标准和工具的最佳组合，为每个特定用例实现可审计、安全和强大的人工智能系统。然后，在第二步中，应该使用来自这些用例的见解来概括结果并构建一个模块化工具箱，该工具箱随后可以应用于其他用例。在此基础上，首先应制定技术指南和随后的标准。在理想情况下，结果将是一套普遍适用的标准和工具，使人工智能系统具有足够的可审计性、安全性和可靠性。

1 人工智能系统：机遇与挑战

人工智能 (AI) 技术已经在许多应用中普遍存在，它正日益成为我们世界不可或缺的一部分，因为它是决策或控制系统无数应用的基础（图 1）。人工智能系统可能由多个子系统组成，每个子系统都可能使用不同的技术。技术可分为经典 IT (cIT)、符号 AI (sAI) 和连接主义 AI (cAI)。在这里，重点放在（深度）神经网络和机器学习（ML）形式的 cAI 系统上，因为 cAI 系统在质量上表现出新的漏洞，并且到目前为止，还不能通过 cIT 的可用工具进行充分审计。

图 1：人工智能系统已经成为各种应用中决策和控制系统的一部分，例如自动驾驶汽车、医疗保健和生物识别技术。 Connectionist AI（cAI，例如神经网络）、符号 AI（sAI，例如决策树）和经典 IT (cIT) 模块通过传感器和执行器相互交互并与环境交互，从而导致整体系统行为。在这里，我们只关注单个 cAI 模块（粗体字）。

人工智能用于计算机游戏和语音助手系统等应用程序，以及驾驶员辅助系统、入侵检测系统和医疗诊断等安全关键应用程序 [1-4]。后一个用例表明，责任和义务从人类转移到了安全和安保关键系统中的人工智能系统。因此，出现故障的人工智能系统可能会导致严重后果，导致经济损失甚至影响人类健康。在极端情况下，这可能包括因不适当或缺少医疗而导致车祸或严重医疗状况的死亡。在许多应用中，当前的人工智能系统在性能、用户体验和成本方面都大大优于 cIT 技术。尽管人工智能技术提供了这些和其他巨大的机会，但它的应用也带来了一些挑战 [5-9]：例如，神经网络 (NN) 的内部工作原理由于其高度互连的非线性而很难被人类解释。处理元素及其巨大的输入和状态空间。此外，它们的性能高度依赖于数据的数量和质量，因为它们的参数必须通过 ML 算法进行训练。 NN 训练不遵循明确定义的设计流程，NN 具有质量上的新漏洞，用户经常缺乏信任，并且 NN 可能被攻击者用作攻击工具。

因此，为了应对 AI 的这些安全和安保挑战，必须深入了解 AI 系统的运作方式、为什么它们在某些情况下表现良好但在其他情况下失败，以及它们如何受到攻击和保护免受攻击。为了获得用户的信任，必须在实际定义的边界条件下保证人工智能系统的正常运行。对于“经典”技术，法律要求在飞机控制软件等多个领域提供此类保证，并且需要定期进行审计。一个自然的问题是如何将传统 IT 领域的概念和方法转移到 AI 领域，在这还不够的情况下，如何用新的 AI 特定概念和方法来补充它们。如果在 100% 的情况下无法保证正确操作，则应讨论是否可以接受 AI 系统至少比最先进的非 AI 系统或人类执行得更好。因此，应采用基于风险的方法，量化系统故障的风险，即故障成本乘以故障概率。这在恶意攻击的情况下也应该成立。更好的平均性能可能还不够，因为人工智能系统的平均性能可能更好，但在亚组上更差（例如，黑人的皮肤癌检测，[10; 11]）。如果 AI 系统出现故障，其失败的原因必须是可以解释的。由于目前尚无普遍接受的审计人工智能系统的标准、评估标准、方法和工具（但有关当前举措，请参见第 2.7 节），因此出现以下问题：如何审计人工智能系统？哪些边界条件是最优的，哪些是可以接受的？除了经典的 IT 系统审计或安全评估之外，还需要哪些方法、工具和其他资源？审计 AI 系统的限制是什么？工作量和审计质量之间的权衡是什么？应该如何在研发中最好地利用可用资源，以实现在各种条件下仍然有效的 AI 系统审计结果？

根据 2020 年 10 月 6 日在柏林/互联网举行的为期一天的研讨会“审计 AI 系统：从基础到应用”的演示和讨论，我们试图通过回顾当前的技术水平来回答这些问题，通过总结开放性问题并确定最迫切需要的未来工作和最有希望的方法来评估 AI 系统的可审计性。在此过程中，1. 将考虑 AI 系统的整个生命周期； 2. 将重点关注当前最重要的 AI 技术，即机器学习 (ML) 训练的深度神经网络 (DNN)，而 DNN 将在 IT 安全性和鲁棒性方面予以考虑。在可能的情况下，将给出具体的用例作为示例。

2 人工智能系统的可审计性：最先进的技术

在本节中，首先给出广义 cAI 生命周期的概述（图 2A），然后总结 cAI 系统可审计性的一些最重要方面的最新技术，即通过 ML 训练 AI 系统数据、攻击和防御、验证、确认、可解释性和标准化。

研讨会期间没有深入讨论其他方面，因此，仅就它们对 AI 安全的可能影响进行了简短总结：

1.足够的质量和数量的训练和测试数据适用于AI性能和鲁棒性，也适用于 AI 系统的安全性 [12]。

2.数据预处理（或特征选择）一方面可以被视为 AI 系统模块化的一步，由于每个 AI 模块的功能减少，可能会导致更好的可解释性，但另一方面，可以认为开辟了一个新的攻击目标（参见例如[13; 14]）。因此，根据具体情况，它可能有利于提高安全性，也可能无益。

3.正则化，例如通过误差函数对大权重进行惩罚，可能有助于防止过度拟合，并且可能在某些边界条件下直接导致更高的鲁棒性并间接提高安全性和保障性[15]。

2.1 生命周期

cAI 系统的复杂生命周期至少在很大程度上是其应用面临新挑战的原因，尤其是与 cIT 和 sAI 系统相比。因此，它将成为本白皮书的重点。在这里，它分为以下 5 个阶段（参见图 2A）：规划、数据、训练、评估和运营。在实践中，这些阶段不是按顺序排列的，而是开发人员以高度迭代和敏捷的方式使用这些阶段，例如在开发过程中经常使用评估。此外，运营阶段还包括模型维护的挑战，包括调整模型的必要性，以防已经使用的 cAI 系统出现新数据或要求。与生物神经网络类似，cAI 系统通常由大量简单但高度互连的处理元素（或神经元）组成，这些处理元素（或神经元）分层组织。最先进的 cAI 系统，例如深度神经网络（DNN，深度 = 多层）由数百万个处理元素和它们之间的突触（= 连接）组成。假设一个固定的神经架构，这意味着 cAI 系统通常有超过 1 亿个参数，即突触权重和单位偏差值，必须适当调整。因此，几乎在所有情况下都无法手动设置这些参数。相反，机器学习技术用于根据训练数据、误差函数和学习规则自动调整系统参数。与在训练期间学习的 cAI 模型内部参数相比，影响学习过程和模型架构的外部参数称为超参数，必须在训练之前固定并在验证集上进行调整。自动化训练管道设置和训练本身的方法称为自动机器学习或 AutoML [16]。虽然许多 cIT 和 sAI 模型（例如决策树或规则集）中的参数通常也由自动方法设置，但原则上，与大多数 cAI 模型相比，它们仍然可以直观地检查。

图 2：A) 连接主义 AI (cAI) 系统的广义生命周期示意图，强调了对 AI 系统进行彻底审计时必须考虑许多方面。在这里，生命周期是从 IT 安全角度来看的，包括漏洞（红色）、防御（蓝色）和解释（绿色 + “？”）。有监督的再训练或在线学习可以选择性地与运营并行，并在运营期间连续运行，从而导致评估应该何时以及多久进行一次评估的问题。评估、验证、确认和标准化应考虑整个生命周期。 B) 一个 cAI 生命周期 (cAILC) 可以是例如嵌入到功能安全生命周期中（fSLC，参见例如 [17; 18]）。后者可能包含几个与安全相关的系统，例如还包括 sAI 和 cIT 系统（参见图 1），包括在开发阶段和最终退役阶段之前的广泛分析阶段。请注意，cAILC 和 fSLC 通常都是高度迭代的。

因此，开发人员的角色是通过使用神经网络、训练数据、机器学习算法和相关超参数初始化训练过程来设置必要的边界条件。随后，开发人员监督训练过程，调整超参数，测试中间结果，并在必要时重新开始训练，直到达到 AI 系统的预期性能。这不是一个标准化的程序，而是开发人员的直觉和经验决定了训练过程。由于获得足够数量的高质量数据和从头开始训练 DNN 需要大量资源，开发人员经常走捷径，利用预先训练的模型和从各种来源获得的外部数据。一旦满足开发标准（例如性能、鲁棒性），人工智能系统就可以投入运行：在嵌入特定的硬件和软件环境后，神经网络会收到预处理的输入数据并输出其决策。尽管缺乏明确定义的设计流程（见上文），但能够访问必要资源（数据、模型、计算能力）的经验丰富的开发人员可以快速为许多明显优于 cIT 系统的用例开发决策系统。

由于 DNN 通常具有巨大的参数和输入空间以及它们在结构和功能之间的非直观关系，人类几乎不可能解释它们的功能。允许这样做的专业解释方法是当前研究的主题（详情参见第 2.6 节）。目前通过观察一组选定测试的输入输出关系来测试人工智能系统。即使是测试所有可能输入的一小部分，也需要大量资源，并且必须系统地进行处理（参见 [19]）。只有在非常有限的边界条件下的特定情况下才能进行形式验证，例如它不能扩展到大型网络和任意输入（参见第 2.4 节）。 cAI 系统的进一步缺点是它们在性质上的新漏洞，即在运行期间的对抗性攻击（参见第 2.3.1 节）和信息窃取攻击（参见第 2.3 节），以及在训练期间的后门中毒和 DoS 攻击（参见第 2.3.2 节），除了经典的社交攻击、操作系统和硬件攻击外，攻击者还可能利用这些攻击进行有针对性和无针对性的攻击（详见下文）。为了保护数据驱动的 AI 系统和机器学习免受此类攻击，除了经典的 IT 安全措施外，还提出了许多解决方案：对抗性训练、梯度掩蔽和特征压缩（参见第 2.3.3 节了解更多详细信息）。不幸的是，到目前为止，没有一种单一的防御方法，也没有多种防御方法的组合能够可靠地防止自适应攻击。此外，根据设置，改进的攻击预防和鲁棒性可能以降低准确性为代价 [20]。

在实际用例中，例如在自动驾驶汽车中，cAI 生命周期通常嵌入到更广泛的生命周期中，包括多个 IT 和 AI 模块的开发和交互。这描述了功能安全生命周期（图 2B 中的 fSLC），其中 cAI 模块只是可能的组件。对于这些 cAI 模块，可以确定（汽车）安全完整性等级 ((A)SIL) [17; 18]。功能安全生命周期强调人工智能生命周期规划阶段之前的分析阶段，目的是量化此类系统的故障概率，并通过包括风险分析在内的系统方法确定这些概率的可接受性。 fSLC 分析阶段还包括概念化以及安全要求的推导和分配。作为分析的结果，出于安全的原因，甚至可能完全禁止在安全关键应用程序中使用人工智能技术。相比之下，人工智能可以很容易地在没有发生严重后果的情况下使用，这必须得到风险分析的支持。在这种情况下，不需要在系统中实施 SIL 要求，也不需要进行安全评估。方法论和用例特定的标准、规范和技术指南应在适用于整个生命周期的任何地方使用。例如，功能安全生命周期存在一个广泛的标准 [17]，但它不包括具有 cAI 特定漏洞和挑战的 cAI 生命周期。在世界各地，多项举措都在努力缩小这一差距（参见第 2.7 节）。

2.2 非平稳环境下的在线学习和模型维护

为了通过从数据中学习来解决问题，可以根据问题的复杂性和可用数据量使用不同的范式。例如，当有大量训练数据可用时，深度学习技术通常用于解决复杂问题，而统计学中的经典方法只能解决不太复杂的问题，但需要的数据更少。独立于范式，手头问题的环境可能不会随着时间的推移而保持不变。为了获得鲁棒的结果，必须考虑和解决此类环境变化。

对于大多数经典机器学习 (ML) 技术，可以在标准假设下从统计学习理论推导出强大的鲁棒性保证 [21]。面对环境变化和有限的数据可用性，保持预测准确性的另一种方法是允许 ML 模型拒绝与已知数据点相距太远且模型确定性较低的输入 [22]。需要注意的是，识别此类输入本身可能是一个难题。这种方法也可以用于在线学习[23]。

迁移学习是一种通用技术，允许将先前学习的父模型调整到新的但相关的任务 [24]。利用这两个任务的相似性并基于父模型中包含的信息，可以使用比从头开始训练所需的更少的数据点来训练新模型。迁移学习和更一般形式的小样本学习是目前使用深度学习的标准方式。例如，特定图像分类任务的模型建立在 VGG [25] 等预训练模型之上。迁移学习可用于应对环境变化。然而，为了在不使用大量数据的情况下获得模型准确性的理论保证，需要对可能发生的变化做出强有力的假设。这样的假设在实际用例中可能是有效的，例如，使假肢的控制单元适应传感器位置的轻微变化[26]。

另一种训练 ML 模型的方法称为在线学习。在这种范式中，模型不会从离散的数据批次中学习，而是使用数据流并不断更新以将每个新数据点考虑在内。然后环境变化表现为数据漂移，这可能会影响真实模型本身或仅影响观察到的数据分布。在这种情况下，挑战在于确定哪些信息与在给定时间点和未来做出正确预测相关，哪些信息应该被丢弃。在这样做时，还必须考虑数据中毒攻击和丢失数据标签。因此，模型面临可塑性之间的两难境地，即能够整合新信息，又保持稳定性，保持以前的正确知识。已经证明，对于简单模型，这两个属性可以有效地平衡，以在存在漂移的情况下实现高性能 [27-30]。这种模型的挑战在于元参数成为模型参数，因为模型复杂性可能会发生变化。因此，非参数模型以及集成方法通常特别适合。然而，获得数学保证需要非常强的假设。作为在实践中处理漂移的一步，检测和理解漂移的第一种技术提供了有趣的方法来判断这种在线适应技术的效果[31,32]。

2.3 攻防

人工智能在设计上并不安全，过去几年已经记录了无数欺骗人工智能系统的例子（概述参见 [33]）。在本白皮书中，我们重点关注 AI 系统在信息安全目标完整性方面的两个最重要漏洞，该漏洞致力于在整个 AI 生命周期中维护可信赖和一致的数据。在这种情况下，已经确定了对 cAI 系统的两个主要和质量上的新威胁：操作阶段的对抗性或逃避攻击（参见第 2.3.1 节）和训练阶段的后门中毒攻击（参见第 2.3.2 节）。这些攻击和可用的防御将在以下部分中详细讨论。

其他两个主要信息安全目标的机密性和可用性方面存在更多漏洞，但不在本白皮书的重点：机密性可能会通过探索性模型窃取 [34]、模型反转 [35] 和成员推断攻击 [36] 受到损害，其中用于训练的 AI 模型和数据可以从查询到可操作的 AI 系统进行重构（在“模型和数据窃取攻击”下总结在图 2 中）。这些攻击是在规避攻击的上下文中提到的（见下文）。可用性可能会受到 DoS 中毒攻击 [37]，与后门攻击相比，它的目标是最小化模型的性能。

2.3.1对抗性机器学习

在规避攻击中，攻击者计划通过对模型输入的细微修改来改变人工智能系统在其推理（或运行）阶段的决策。这些修改通常对人眼来说是不可疑的，也被称为对抗性示例 [38; 39]。因此，标准的 cAI 系统非常脆弱，模型训练数据不能很好地表示的输入特别容易受到错误分类的影响。众所周知的例子包括通过在交通标志上放置贴纸来攻击交通标志分类系统 [40]，通过向恶意软件 [41-43] 添加适当功能所不需要的代码来攻击恶意软件检测器，以及通过为人类配备特别印制的眼镜架 [44] 或帽子上的补丁 [45]。如果攻击者能够控制人工智能系统的决策，则该攻击称为有针对性的攻击，否则，如果攻击者只是以任意方式更改决策，则该攻击称为无目标攻击。

为了规避攻击，可以将其形式化为一个优化问题，其目标是修改输入，以使 AI 系统至少跨越一个决策边界，例如。在恶意软件检测器中从良性区域到恶意区域 [38; 46]。在这样做时，必须考虑几个附带条件，例如保持修改尽可能小或不明显的要求。

如果攻击者完全了解模型、特征和数据，这种攻击称为白盒攻击。此外，如果输出函数是可微的，这是大多数当前使用的学习算法的情况，那么可以计算梯度作为优化过程的先决条件。但是，在攻击者对目标模型、特征和数据的了解有限的情况下，称为灰盒或黑盒设置，攻击者可能会通过替代模型绕过旁路来制造有效的攻击。替代模型可以通过模型窃取攻击或通过新训练的模型，例如使用来自成员推理攻击的数据，该攻击模仿目标模型的功能。 cAI 系统具有这样的特性，即为一个模型开发的攻击在许多情况下可以毫不费力地转移到不同的 cAI 模型（可转移性），因此，这些攻击也称为黑盒转移攻击。根据边界条件，即使是黑盒查询攻击也可以成功。它们不需要替代模型，而是使用对目标模型的查询与无梯度优化方法（如遗传算法或贝叶斯优化）相结合。由于这些黑盒攻击，仅对网络参数保密以有效保护人工智能系统免受对抗性攻击是不够的。

但是为什么 cAI 系统容易受到对抗性攻击呢？ cAI 系统建立在训练数据代表未来数据的假设之上，即输入数据是独立同分布 (IID)。除非任务空间非常有限，否则 IID 假设 [47] 迟早会被违反，这意味着模型缺乏鲁棒性。因此，模型在随机输入数据损坏（含噪的输入数据分布）和特制的对抗性示例方面缺乏鲁棒性是同一潜在现象的两种表现形式 [48]。模型越复杂，出现的漏洞就越多，攻击者就越容易和更快地找到对抗样本。直观地说，这可以通过以下事实来解释：系统的输入和状态空间维度越大，从合法输入到恶意输入区域的路径越短，攻击者可能会利用这些路径。此外，为了使鲁棒性训练适用于复杂的 cAI 系统，它需要大量适当的训练数据，即随着 cAI 系统的大小，防御变得越来越资源密集。解决这个问题的一种策略是从风险角度考虑，对于每种类型的攻击，它发生的可能性被认为是决定单独应该分配多少资源来防御它。

2.3.2 DNNs后门攻击

DNN 等 AI 模型需要大量数据进行训练和测试，才能获得良好的性能。出于这个原因，通常的做法是从多个来源收集数据而不执行高质量标准。事实上，从业者普遍认为，低质量的数据可能没有什么价值，但不会显着影响模型的性能。然而，大量研究结果表明，这种假设是不正确的。由于当前的 AI 模型本质上是纯相关提取器，因此数据集的问题会导致它们以意想不到的方式表现。

后门投毒攻击和 DoS 投毒攻击 [49; 50] 有针对性地损坏部分训练数据。一方面，DoS 中毒攻击旨在通过插入错误的数据点来改变其决策边界 [49]，从而降低模型的泛化能力。虽然这些攻击在经典 ML 方法中构成了一个大问题，但它们不会以相同的规模影响 DNN，并且通常可以很容易地检测到 [51]。另一方面，后门中毒攻击只会降低某些输入的模型准确性[50]。为此，攻击者通过添加特殊的触发模式小心地操纵部分训练数据，使他们能够在推理过程中完全控制这些输入上的模型行为。就经典的 IT 安全目标而言，DoS 中毒攻击影响模型的可用性，而后门中毒攻击则针对其完整性。此类攻击的基本思想在于植入虚假的相关性，然后模型将其用于决策。例如，这通常涉及在分类任务中更改标签。然而，更微妙的、所谓的标签似是而非的攻击可以避免这些相当明显的变化[52]。

之后很难检测到对 DNN 的后门攻击。这既是因为模型只做它们应该做的事情，即学习相关性，也因为它们表现出缺乏人类可解释性。发现后门攻击的方法依赖于对模型学习的异常值的检测[53]。这不适用于数据集本身，而是必须使用内部模型表示 [50; 54; 55]，可能与 XAI 方法结合使用（参见第 2.6 节）。然而，现有的缓解技术并不完美，也可能没有自动解决方案，因为可能需要人类先验知识来正确区分损坏和良性数据点 [56]。

除了有针对性的攻击之外，数据集可能包含虚假的相关性，这可能会以类似的方式影响模型，尽管针对性较低。这些相关性可能源于数据选择以及预处理和训练管道中的偏差。例如，在医学图像识别的各种任务中已经发现了这些问题 [57]。

解决这些问题需要消除训练数据中的虚假相关性。 XAI 方法可能有助于做到这一点，以及在训练期间随机化管道伪影的技术。除了 AI 级别的技术措施外，还需要更通用的缓解技术来解决意外的虚假相关性，尤其是阻止后门攻击。特别是，这包括在模型的整个生命周期内保护模型的完整性，并在训练阶段使用技术和组织措施来改变环境条件，例如对开发人员进行安全检查以及限制对数据存储和开发机器的访问，使其攻击者更难成功 [58]。

2.3.3 DNNs攻击的检测与防御

在最近，为了保护深度神经网络免受攻击[59]或检测此类攻击[60]，已经提出了大量的方法。然而，事实证明，检测对抗性攻击并可靠地防御它们是非常困难的，因为已经证明自适应攻击者可以绕过大多数提出的防御，与仅应用最强防御的系统相比，即使是并行应用的多个防御也可能并不总能增加对抗性的鲁棒性[61-63]。尽管如此，防御可以增加攻击者发起成功攻击的努力。此外，最近关于对抗性攻击的可验证检测的工作很有希望，因为它保证了对某些自适应攻击者的鲁棒性[64]。

许多防御方法的一个重要缺点是它们会显着影响模型在良性输入上的性能。出于这个原因，评估防御方法的合适指标应该同时考虑模型对 a) 良性输入和 b) 对抗性输入的性能。

在防御对抗性攻击时，总是需要考虑 AI 系统的环境条件。例如，如果攻击者只能将攻击应用于物理世界而不能应用于数字领域（例如，在攻击计算机视觉系统时，攻击需要在不同视角、旋转或类似变换下具有鲁棒性），成功的标准攻击要高很多。此外，需要牢记的是，这样一个系统的鲁棒性不仅取决于其 AI 相关部分的鲁棒性，还取决于其他组件，例如 cIT，这既可以增加也可以降低系统的鲁棒性和也构成了额外的攻击目标。例如，可以通过包含基于非 cAI 技术的冗余方法来提高系统的鲁棒性，该方法充当完整性检查，或者通过 cIT 查询限制对 cAI 组件的限制来阻碍对抗性示例的制作。

对抗性攻击最有希望的防御方法之一是对抗性训练 [59]，其中对抗性示例被包含在训练阶段，以增加这种系统的对抗性鲁棒性。这种方法的一个缺点是它会显着影响训练运行时间，尤其是在包含使用强攻击构造的示例时。对抗性训练只会赋予训练期间出现的攻击鲁棒性，因此，如果出于性能原因只考虑弱攻击，系统将仍然容易受到更强攻击。因此，有必要提高对抗训练的效率，特别是通过在训练期间创建强大的对抗样本的过程，如共享对抗训练 [65] 和元对抗训练 [66] 以及训练策略的其他扩展是有希望的（参见例如 [67]）。

对抗性训练的另一个缺点是它没有对模型的鲁棒性提供任何正式的保证。因此，不能正式证明不存在绕过这种防御的攻击。这个问题可能会在威胁模型（例如对抗性补丁 [68]）中通过经过认证的防御（例如[69] 和 [70]，这可以证明补丁威胁模型对对抗性攻击的鲁棒性。然而，对于其他威胁模型，这种经过认证的防御将严重影响模型在良性输入上的性能。此外，其中一些防御措施对模型的架构施加了限制。

针对对抗性攻击的其他类别的防御通常容易被攻击者规避，并且根据用例和边界条件，可能会产生错误的安全感。这是例如梯度混淆[71]的情况，一种梯度掩蔽，应该使攻击优化步骤更难。

在防御后门攻击方面，主要问题源于 AI 模型没有其目标领域的先验知识，而是从（可能是恶意的）训练数据中学习这些知识。防御此类攻击的一种有前途的方法是通过查看使用该数据训练的深度神经网络的内部工作原理来检测恶意数据 [54]，并识别网络行为与同一类别的其他数据样本不同的样本。这可能表明与正常数据样本相比，网络使用不同的特征来进行预测。到目前为止，这种方法只适用于部分情况。为了解决模型缺失先验的问题，可能有必要通过人类专家知识在也使用 XAI 方法的交互式过程中包含此先验。

2.4 人工智能系统的验证

人工智能系统的验证领域涉及在存在一系列输入扰动的情况下证明不存在意外的输出行为，这可能是由于自然变化或攻击者故意引起的。因此，验证可用于推理 AI 系统的安全性。然而，严格的证明面临着重大障碍。由于输入空间很大，要考虑的扰动数量可能是无限的，这使得蛮力方法不可行。此外，用于检查逻辑约束的标准求解器（例如 SMT，[72;73]）由于其非线性而不能很好地扩展到 DNN，尽管它们在某种程度上可能有用。

解决这些问题的一个突出方法是基于抽象解释技术，该技术已广泛用于自动推理多年 [74]。它的主要思想是以有界的、有限的方式表示可能无限数量的状态，这允许将其存储在内存中并执行符号计算。

更准确地说，抽象解释可以通过符号约束对所有可能的输入扰动进行编码来应用于 DNN，例如产生多面体。随后，可以计算网络层对该多面体的抽象影响。生成的形状对与输入集对应的所有可能输出进行编码，并可用于检查要验证的保证。在实践中，为了使计算可行，编码输入的符号约束是真实数据流形的近似值（凸松弛）。因此，在近似精度和计算复杂度之间存在权衡。

迄今为止开发的验证技术有几个缺点，因此需要提出以下改进建议：

1.验证主要针对输入向量的每个元素在给定范围内的随机变化进行，直到最近才有几何扰动（例如旋转、平移）研究。这个范围需要扩展到更多的语义扰动。

2.使用的松弛需要改进，以在精度和复杂性之间取得更好的平衡。在扩展扰动和任务集时，可能需要自定义松弛。

3.这些技术主要应用于前馈神经网络的分类任务，需要泛化以涵盖其他模型类型（例如 RNN）和其他任务（例如分割）。

4.最大的问题是方法的可扩展性。如果一个目标是提供 100% 的确定性保证，那么这些技术仅适用于中小型网络（就 ReLU 单元的数量而言），与实践中使用的大规模网络相去甚远。

为了从这些技术的全部潜力中受益，它们还可以用于事后验证。特别是，一种称为可认证训练的方法 [75] 将它们与训练相结合，以获得可认证的防御。这也有助于解决该技术的可扩展性问题，因为新的网络架构可以通过认证。

还表明，对抗性训练有助于验证，对抗性训练和可认证训练可以相关，并且主要在它们用于提高模型稳健性的信息上有所不同。最近的研究提出了一种将这两种方法结合起来的方法 [76; 77]。

2.5 审计安全关键型人工智能系统

安全关键型人工智能系统是其决策受人工智能子系统影响的系统，其故障可能导致以下结果：人员死亡或严重伤害、设备或财产损失或严重损坏以及环境危害。例如，安全关键系统可以在航空、核能、汽车和铁路、医疗和自主系统领域找到。对于这些系统，有必要证明它们满足所需的要求，例如某些可预测的鲁棒性和可靠性，并且它们的保证通常依赖于基于标准的证明。不幸的是，对于基于 ML 的系统，这是一个严重的问题：缺乏针对此类新技术的经过验证的标准、政策和指导，例如诸如 IEC 61508 [17] 等安全规范性软件标准并不完全适用于 AI 系统。

与无法应用现有方法的其他系统一样，基于论证的方法（使用正式的结构化论证来证明某些特定声明的正当性）可用作 AI 系统保证的结构化方式 [78; 79]。基于论证的方法的主要优点是在如何证明安全声明方面具有相当大的灵活性。在确定未知领域的差距和挑战时，这种灵活的方法是必要的。其中一种方法是 CAE（声明、论证、证据）框架，它基于应用的自然语言演绎方法。 CAE 框架由三个部分组成：

声明是为获得普遍接受而提出的声明（例如，关于系统安全/安全的声明）。
将证据与主张联系起来的论点。
作为索赔理由的证据。例如，证据的来源可以包括开发过程、先前的经验、测试和正式的方法。

使用 CAE 框架，可以使用经典的和 AI 特定的方法以结构化的方式检查给定的声明。例如，经典的软件分析方法对于分析实现 AI 系统的软件代码是必要的。另一方面，当涉及到与人工智能相关的定性方面时，例如对抗性攻击，经典方法无法应用。通过使用反诉和确认理论 [78]，CAE 可以进一步扩展到包括基于论证的方法的一个有希望的变体，可废止推理 [80]。它通过提示评估人员反复询问为什么某物可能不安全的问题而不是仅仅寻找支持证据来减少确认偏差的可能性。

对于某些 AI 系统关键属性，例如系统的鲁棒性，缺少明确的正式定义作为任何形式验证的先决条件。 CAE 可能有助于澄清这个开放的研究问题并努力定义这些属性。

可以以某种方式证明，人工智能系统最常见的形式属性是逐点鲁棒性。然而，这个属性的一个主要限制源于它并不暗示系统鲁棒性属性：逐点鲁棒性仅证明特定数据样本的给定属性，但为了显示系统鲁棒性，有必要证明这一点对于所有未来的输入，这在大多数使用 AI 系统的实际应用中是不可行的 [72]。

因此，目前无法在形式验证级别上对 AI 系统进行全面审计。然而，静态分析工具可用于防止错误从训练代码传播到 ML 算法中，并有助于为系统的安全性提供基线。现有的 AI 审计良好实践包括 [81-84]。

2.6 解释黑盒 AI 模型

复杂的 AI 模型，例如深度神经网络 (DNN)，通过在大型数据集上进行训练来学习功能（参见第 2.1 节）。这些模型的内部工作原理以数学方式对学习的函数进行编码，通常不适合人类解释[85]。然而，出于多种原因，能够解释AI 模型的决策可能很重要。这些原因包括发现模型（以及实施它的硬件/软件平台）的错误、弱点和限制，这可能有助于提高其性能和对攻击的鲁棒性，以及满足透明度要求，例如由欧盟通用数据保护条例，并从科学和经济中的大型数据集中获得新的见解。因此，需要新的方法来解释复杂的人工智能模型，如神经网络。相应的研究领域称为 XAI（可解释 AI）[86; 87]。

文献中提出了各种解释方法，以提供对 AI 模型不同方面的见解。一类方法旨在对模型进行全局解释，例如，通过构建最大激活输入 [88] 或通过研究单个神经元在深度神经网络中的作用来分析编码函数的极值点 [89]。虽然这些解释确实提供了关于模型及其学习表示的有价值的信息，但它们对于理解个体预测几乎没有用处，即识别对模型决策产生积极或消极影响的输入特征。本地 XAI 方法通过将相关性分数归因于输入特征来填补这一空白。存在不同的方法，大致可分为三类：

1.基于扰动的方法在对输入数据应用扰动后评估模型输出，并从发生的变化中得出解释。这些扰动可以是无穷小的（例如，梯度）或相当粗糙的[90]，此外，它们可以表示为优化问题[91]。尽管应用起来很简单，但这些方法有几个缺点，例如在计算方面的要求很高（梯度不是这种情况），因为必须对模型输出进行大量评估，并且可靠性有限，因为结果是对应用的扰动高度敏感（例如，扰动输入可能不在输入流形或梯度破碎问题上[92]）。

2.基于智能体的方法（例如 LIME，[93]）查询相关模型以获取大量输入，并通过本质上可解释的更简单模型对其进行近似。然后可以推断出对原始模型行为的解释。这种方法带来的问题是，一方面，解释对输入查询的采样方式和更简单模型的拟合方式的依赖性，另一方面，查询原始模型的计算工作量次数。

3.基于结构的方法（例如 LRP，[94]）使用网络的内部结构来传播从输出到输入数据的网络层之间相关性的信息。这些方法的主要特定缺点是它们需要访问模型的内部结构，因此与模型无关。然而，它们的计算强度远低于其他方法，并且它们提供的解释在一系列标准下得分更高（参见 [95]）。

为了更全面地了解模型实施的预测策略，可以聚合或聚类多个局部解释[96]。其他方法作用于潜在空间而不是输入特征，从而提供更高级概念的解释，例如颜色、形状和物体部分 [97]。

其中一些解释方法，例如LRP 已被用于发现大型图像数据集中的意外偏差。例如，他们揭开了所谓的 Clever Hans 分类器 [98] 的面纱，即（看似）做出正确决策但出于错误原因的模型，基于版权标签识别马匹或基于存在的肺炎 X 射线“便携”标签。在更一般的情况下，这种方法可用于检测数据中的偏差并提高模型的泛化能力。

最近，XAI 方法已应用于 DNN 之外的其他模型结构，也用于可视化之外的目的（例如网络修剪）。然而，要充分利用 XAI 的全部潜力来帮助研究人员获得鲁棒且值得信赖的模型，仍然存在许多挑战。限制 XAI 在许多应用程序中的优势的一个因素是，如果输入特征本身不容易被人类解释，则会出现解释差距。上述解释方法的另一个悬而未决的问题是，它们并非专门设计用于揭示多个输入区域之间可能存在的相互作用，例如回答图像中多个区域中的哪些像素组合有助于特定决策。最后，还不清楚如何在没有人工干预的情况下将 XAI 最佳地集成到模型训练中（例如，集成到损失函数中）以改进模型。

2.7 全球人工智能标准化活动概况

标准是描述人工智能系统统一技术要求和支持法律框架实施的一种行之有效的方法。它们还促进了人工智能创新的市场准入，并为人工智能系统营销人员提供了一个用于人工智能系统开发和运营的清晰框架。例如，在德国，DIN 和 DKE 是主要的标准化机构，在 CEN、CENELEC 和 ETSI 等标准化组织中代表欧盟层面的国家利益，在 ISO、IEC 和 ITU 等组织中代表国际层面的国家利益。

关于本白皮书中讨论的测试和审计人工智能系统的主题，出现了哪些人工智能质量标准需要独立测试以及需要为此类测试程序本身开发哪些标准的问题。为了解决这种缺乏标准的问题，例如，在德国，以“Normungsroadmap KI”[99] 的形式提出了对人工智能领域现状以及对标准和规范的需求的综合分析。应该通过标准化解决的最重要的质量维度如图 3 所示。

图 3：将 AI 质量标准的类别分类到合规性测试中

表 1：本白皮书涵盖的选定主题的人工智能领域的新兴标准。有关更完整的概述，请参阅[99] 和 [117]。

然而，很明显，技术测试（“产品测试”）领域仍有相当大的发展需求，特别是在神经网络的验证、安全关键系统的可靠安全论据以及进行这些测试的工具。因此，广泛的标准化活动将在未来几年继续进行。德国项目“KI-Absicherung”[118]代表了如何解决自动驾驶主题的这种需求的一个突出例子。它由一个由研究机构、汽车制造商、供应商、标准化组织和相关公共机构（如德国 BSI）组成的联盟管理，并正在就高度自动化的基于 AI 模块的安全性验证策略制定行业共识。

预计未来一段时间内将通过更多类似的灯塔项目和试点，出现更多的技术测试程序，并解决相应的标准化需求。

3 未解决的问题和有希望的方法

至少对于与安全相关的 cAI 应用程序，需要实现足够水平的稳鲁棒、安全性和可审计性，并且需要制定相应的技术指南和标准。当回顾该领域的最新技术时（参见白皮书的前几节），很明显，一方面，许多悬而未决的问题仍然存在，但另一方面，存在许多有希望的方案和方法解决或减少这些问题的影响。此后，将根据对 cAI 生命周期的修改描述来总结未解决的问题和有希望的方法（参见图 4）：

图 4：cAI 生命周期（参见图 2），重点关注可审计性、IT 安全性背景下的开放性问题。

cAI 生命周期通常嵌入在整个系统生命周期中，根据具体的用例，包括多个 cIT 和 sAI 系统以及硬件设备，例如传感器和执行器。从这个角度来看，在复杂且不断变化的环境（漂移）中自主运行的机器永远不会完全和最终确定，因此，不确定性和错误风险仍然存在。处理嵌入式 cAI 生命周期风险评估的第一种方法来自功能安全领域（[119; 120]，参见第 2.1 和 2.7 节）。为了定义分析、验证人工智能系统的合适方法，首先有必要识别和理解它们的预期用途、任务和它们运行的环境。每个特定用例都具有许多基本属性，这些属性用户或监管机构期望作为系统的基本特征来实施，例如：鲁棒性、安全性。在大多数情况下，任务和环境的正式定义和相关指标缺失或不完整。这有几个不良后果，例如可接受的风险必须考虑受影响用户的看法和意见。反过来，用户和开发人员需要在相互之间的教育、培训和沟通方面拥有坚实的基础，以便在使用特定AI模型、ML算法、数据集和分析方法以及针对特定用例的进一步边界条件方面做出明智的决定。

一个首要的开放问题是（通常是多方面的）系统所需特性之间的权衡，例如鲁棒性、安全性和可审计性，一方面是人工智能模型、机器学习算法、数据和边界条件的特征，例如模型复杂性、任务空间、可塑性、成本和性能。这些权衡限制了当前 AI 系统的可扩展性和通用性。举个例子：1.增加模型复杂性，例如可能会对可解释性和防御产生负面影响； 2. 增加任务空间大小会导致需要更大的训练和测试数据集，这将使验证变得复杂，并且更难满足 IID 要求，而 IID 要求是训练鲁棒 AI 系统的重要先决条件； 3.加强防御往往会导致性能下降； 4. 在存在漂移的情况下保持 AI 系统的不变特性需要频繁的重新训练和测试，因此会增加成本； 5. 白盒模型和生命周期访问以提高可审计性与知识产权利益的冲突； 6. 使用外部数据集和预训练模型降低了成本，但会带来新的漏洞，特别是对于难以检测的后门攻击。

研究已经提出了许多有前途的方法来解决多个层面的开放问题，例如。 1. 通过使用迁移和少样本学习，重新训练更加高效的系统，并且通过使用非参数和集成方法，考虑到调整元参数的需要。因此，至少对于低复杂度的模型，可塑性和稳定性可以很好地平衡； 2. 针对考虑自然和对抗性输入性能的适当指标优化防御方法，有助于减少采用强防御方法时通常的性能下降； 3. 共享和元对抗训练降低了处理普遍扰动的成本； 4. 尽管任务空间很大，但系统地使用合成和/或增强数据和模拟可以识别故障模式并强化人工智能系统； 5.在一定程度上抽象解释和可证明训练允许验证具有更大任务空间的人工智能系统； 6. CAE 和可废止推理等基于论证的方法允许在现有方法无法应用的情况下审计 AI 系统； 7. 利用人类先验可以提高人工智能系统的可解释性，并通过混合模型使人工智能系统更加健壮； 8. 通过使用解释方法检测数据集中的异常值、拒绝训练期间的负面影响和相关方法（RONI，[121]）或使用 bagging 集成 [122]，通过数据清理来防御后门攻击； 9. 如果白盒访问不可行，替代模型和替代数据集至少在某些情况下可用于提高审计质量，例如产生高质量的攻击情况下； 10. 加密方法和信任链可用于确保供应链中数据和模型的完整性。此外，可以使用这些方法的组合。

尽管有所有这些和其他有前途的方法，但必须牢记，未来任务、模型和数据集的复杂性很可能会增加，需要更强大的方法。

4 确定可审计人工智能系统的工作重点

迄今为止，还没有一套普遍适用的标准和工具可用于保护 AI 系统，从而可以通过严格的方式证明足够低的错误概率。本白皮书认为，存在两种通用策略来获得可审计、安全和安全的 AI 系统（参见图 5）：

图 5：在尝试达到可接受的 IT 安全性、审计质量、鲁棒性和可验证性水平时必须考虑的多方面权衡。可实现的水平取决于多个边界条件，例如任务复杂性和模型复杂性。对于给定的边界条件，通过研发的技术进步可能允许例如实现更高的 IT 安全级别和/或改进的可审计性，但到目前为止，这仅在有限的范围内起作用。

1.为给定任务创建有利的边界条件：对开发人员和用户进行适当的培训以及双方之间充分的信息交流，可以明确定义任务和可接受的边界条件。如果将 AI 系统嵌入更大的 IT 和/或机器人系统，这构成了在 AI 系统的开发过程以及部署和操运行期间进行明智选择的基础。在极端情况下，开发人员或用户可能会得出结论，必须针对特定用例完全禁止使用 AI 技术，例如：出于安全考虑。否则，根据用例，限制任务空间和限制 AI 模型的复杂性可能会带来更好的可审计性和更安全的 AI 系统 [123]。此外，多种技术和组织措施的结合，以及根据知识产权考虑，在整个生命周期内对 cAI 模型和数据进行白盒访问以进行评估，很可能会提高可审计性并有助于安全性。

2.投资研发以推进可用技术，最终在复杂的边界条件下实现安全可靠的人工智能系统，从而提高可扩展性和通用性。示例包括：a) 在 AI 系统的所有安全相关方面制定适当的指标。它们有助于最大限度地减少权衡的影响，例如性能和防御强度之间的权衡； b) 结合鲁棒的模型和检测算法，在保持高性能的同时拒绝可能的恶意输入； c）通过例如包含人类先验混合模型以提高可解释性； d) 高效生成大量高质量攻击，作为开发对抗性训练等有效防御方法的基础； e) 生成大量高质量的真实合成数据，为 IID 数据集做出贡献，作为训练鲁棒 AI 系统的基础； f) 真实模拟与真实世界评估的结合，以及 g) 使用多个冗余但质量不同的系统，例如cAI、cIT 和 sAI 系统的组合。

应高度重视这两种策略，同时在第一步中，重点关注选定的安全关键用例。应利用可用的标准、指南和工具（参见本白皮书的其余部分），并应进一步促进研究人员和行业之间的跨学科交流 [124] 以找到可用标准和工具的最佳组合，以实现可审计、安全和针对特定用例的强大人工智能系统。必须根据它们在各自用例中的实际利益和可行性来评估这些标准和工具。然后，在第二步中，应该使用来自这些用例的见解来概括结果并构建一个模块化工具箱，该工具箱随后可以应用于其他用例。在此基础上，首先应制定技术指南和随后的标准。在理想情况下，结果将是一套普遍适用的标准和工具，使人工智能系统具有足够的可审计性、安全性和可靠性。

致谢

我们要感谢 Aleksander Mądry（麻省理工学院）的精彩演讲以及整个研讨会期间的重要评论和推动。我们还要感谢在研讨会之前、期间和之后为讨论做出贡献的所有研讨会参与者。我们还要感谢 VdTÜV 的 Maria Sürig 和弗劳恩霍夫 HHI CINQ 中心的 Jennifer Chyla 为研讨会的组织做出的重要贡献。

成为VIP会员查看完整内容