解决机器学习安全保证中不确定性的方法

摘要

人们对将机器学习（ML）技术应用于安全关键的信息物理系统的兴趣日益浓厚，因为它们有望通过解决复杂的感知和规划任务来提高自主水平。然而，证明机器学习的安全性被视为其在这类应用中广泛部署的最具挑战性的障碍之一。在本文中，我们探讨了使机器学习安全保证成为一项艰巨任务的因素。特别是，我们解决了不确定性对机器学习安全保证论证可信度的影响。我们展示了这种不确定性如何与机器学习模型的复杂性以及它们旨在实现的任务的固有复杂性相关联。基于不确定性的定义以及一个示例性的保证论证结构，我们研究了论证中的典型弱点以及如何解决这些弱点。该分析将对机器学习模型不足原因的理解与对保证论证中所断言的上下文、所断言的证据和所断言的推理类型的系统分析相结合。这导致了对保证论证结构以及支持证据的要求的系统识别。我们得出结论，需要将定性论证与定量证据相结合，以构建一个关于机器学习功能安全相关属性的稳健论证，并且该论证在功能部署到目标环境后会不断完善，以减少论证中的残留和新出现的不确定性。

1. 引言

人工智能（AI）领域，特别是机器学习（ML）的最新进展，引发了人们对将 ML 应用于自动驾驶汽车和工业机器人等信息物理系统的更多兴趣。此类系统有可能通过提高自动化程度来增强安全性，例如减少人为事故的数量，或允许系统在危险环境中无需直接人工控制即可运行。然而，此类系统的故障可能会对用户、旁观者和环境造成严重危害。因此，明确需要证明使用 ML 的安全关键系统具有可接受的安全性。因此，可信和安全的 AI 领域也从监管和标准角度受到关注。例如，欧盟的 AI 法规提案以及正在进行的安全 AI 标准化工作。在这些法规和标准的背景下，保证论证可用于证明安全要求已得到充分满足。然而，对于复杂的基于 ML 的功能，如用于自动驾驶汽车中基于摄像头的障碍物检测的功能，是否能够提出令人信服的安全性论证，仍存在重大争议。在本文中，我们对使 ML 安全性论证如此具有挑战性的根本因素进行了系统检查。在此过程中，我们基于复杂性和不确定性的一般定义，并展示了如何利用这些定义来解释 ML 模型的规范和性能不足的根本原因以及由此产生的保证不确定性。我们的术语与 ISO 21448《预期功能安全》标准一致，该标准为推理复杂自动化系统的性能不足提供了有价值的概念视角。我们将这些观点与保证案例中的可信度概念相结合，以突出安全论证的哪些方面会导致保证不确定性，以及如何提高论证的可信度。结果是一个用于推理 ML 保证论证中残留不确定性的框架，该框架可用于为确定哪些应用和技术方法可以提出令人信服的安全论证提供更坚实的基础。因此，本文的贡献可总结如下：

· 我们提供了一组定义，用于对 ML 的安全保证差距进行分类并评估其严重程度。

· 我们将这些概念应用于基于先前工作的 ML 保证论证结构，以确定论证的哪些方面以何种方式导致保证不确定性。

· 这使我们能够确定解决这些不确定性的措施，这些措施可能成为未来 ML 安全保证研究的重点。

本文的结构如下：下一节概述了基于 ML 的安全关键功能的保证论证和保证论证可信度的先前工作。在第 3 节中，我们介绍了本文中使用的一些复杂性和不确定性的定义。第 4 节演示了如何使用这些定义来描述与自主开放环境系统中安全关键 ML 功能的保证相关的不确定性表现。第 5 节介绍了一种受第 2 节中引用的先前工作启发的安全保证论证结构，该结构解决了规范和性能不足的常见领域。在第 6 节中，我们应用保证可信度的概念来检查保证证据以及论证结构本身中的残留不确定性领域。这导致了关于当前 ML 安全性辩论的一系列结论以及未来研究领域的确定。本文中用于说明概念的示例涉及监督 ML，如深度神经网络（DNN）。然而，这些概念可以作为未来工作的一部分扩展到其他类别的 ML 技术。

2. 背景和相关工作

2.1 机器学习的安全保证

ISO将保证定义为有正当理由相信某项主张已经或将要实现的依据。主张被定义为关于一个明确定义的属性的值的限制的真假陈述 —— 称为主张的属性 —— 以及该属性的值落在这些限制内的不确定性的限制。ISO还将保证论证定义为一种合理的、可审计的工件，支持其最高级别主张得到满足的论点，包括系统论证及其支持该主张的基础证据和明确假设。因此，保证论证传达了证据与安全目标之间的关系。保证论证的基于模型的图形表示可以帮助其沟通和评估。在本文中，我们使用目标结构化表示法（GSN）来可视化保证论证。

以前，功能安全标准没有涉及基于 ML 的软件的独特特征。Salay 等人分析了 ISO 26262 标准（道路车辆电气 / 电子系统的功能安全），并就如何调整该标准以适应 ML 提供了建议。Burton 等人解决了论证基于 ML 的高度自动化驾驶系统安全性所涉及的挑战，并提出了一种基于契约的方法，用于证明在给定的一组假设下，ML 功能满足一组与安全相关的要求（保证）。《自主系统中机器学习保证指南》（AMLAS）（Hawkins 等人）概述了不同的 ML 生命周期阶段，并通过依次检查每个阶段来指导 ML 组件保证案例的开发。该指南强调，有效的安全论证的开发需要涉及大量利益相关者的迭代过程。此外，它强调安全考虑只有在更广泛的系统和操作环境范围内确定范围时才有意义。Burton 等人进一步发展了这种迭代方法，其中讨论了一个简单的基于 ML 的功能的安全保证论证。该功能的简单性和 ML 技术的选择（一种自适应的广义学习向量量化方法，Sato 和 Yamada）使作者能够通过利用可以高度确定地确定的环境和模型的属性来开发一个令人信服和全面的案例。Burton 等人提出了一种用于更复杂的基于 ML 的感知功能的安全保证方法。特别关注应如何选择证据，以及如何证明不足的缓解是成功的。

对于复杂的基于软件的系统，支持保证案例中的主张通常需要基于建设性措施、形式化分析和测试的各种证据。专注于特定指标和措施在提供关于 ML 模型安全相关属性的有意义陈述方面的有效性的工作包括（Cheng 等人；Henne 等人；Schwaiger 等人）。实际上，保证论证将包括定量证据和定性论证的混合。因此，并不总是清楚实际上已经论证了何种程度的残留风险，并且这通常取决于专家判断和安全标准中规定的成熟论证链的使用。尽管本文引用了许多作品来说明各种证据收集方法，但我们并不声称在此领域提供完整的综述。有关支持 ML 安全性的证据的更全面综述，我们参考专门的调查论文，如 Huang 等人、Ashmore 等人和 Houben 等人。

目前，对于在安全关键环境中评估 ML 功能的性能，哪种方法集足够，行业尚未达成共识，ML 的安全标准仍在制定中。这在构建保证案例时带来了额外的挑战，因为证据本身的有效性可能受到质疑（Burton 等人）。

2.2 保证可信度论证

保证可信度估计旨在减少与保证论证本身的有效性相关的不确定性。提高保证案例可信度的定性方法旨在通过加强论证本身来减少不确定性，例如通过添加特定于可信度的主张、子主张和证据。Hawkins 等人提出了有保证的安全论证的概念，这是上述常规安全论证的扩展，将安全论证与可信度论证分开。为此，有保证的安全论证由两个独立的组件组成：（1）纯粹因果性质的常规安全论证，即它仅链接主张、上下文信息和证据，而不提供可信度值；（2）可信度论证，用于建立对安全论证的结构和上下文的可信度。安全论证和可信度论证通过论证的结构表示中的保证主张点（ACP）连接。ACP 可以分配给关于论证可信度的以下类型的断言：

1. 断言的上下文：对上下文信息有效性的可信度。

2. 断言的解决方案：对证据的有效性和完整性的可信度。

3. 断言的推理：对论证的演绎逻辑适当性的可信度。

可信度论证旨在为断言的三个特定方面提供可信度：

1. 有理由支持断言可能为真。

2. 断言中的残留不确定性（称为保证缺陷）已被识别。

3. 断言中的残留不确定性不足以引起关注。

虽然这种方法旨在通过单独的一组可信度论证为整体安全论证提供可信度，但它不允许为整个安全论证分配定量可信度指标，例如量化整体主张被错误地陈述为真的风险。已经提出了一系列保证可信度的定量方法，例如使用消除归纳法和培根概率（Goodenough 等人）、Dempster-Shafer 信念函数（Ayoub 等人；Wang 等人）或贝叶斯推理（Guo；Denney 等人，Hobbs 和 Lloyd）。然而，由于这些方法依赖于可分配给保证论证元素并组合成整体可信度分数的可靠可信度值的可用性，因此它们本身也受到不确定性和主观判断的影响。

3. 复杂性和不确定性的定义

3.1 从复杂性到不确定性

在 Burton 等人中，作者讨论了语义鸿沟的概念及其对基于 ML 的自主系统安全保证的影响，特别是用于表达定义系统足够完整的安全行为集的难度。作者使用了以下定义：“语义鸿沟：预期功能与指定功能之间的差距 —— 当系统上的隐含和模糊意图比系统的显式和具体规范更多样化时”（Bergenhem 等人）。语义鸿沟被描述为以下因素的直接后果：

· 系统运行环境的复杂性和不可预测性，

· 系统的复杂性和不可预测性，以及系统与其他技术系统和人类参与者（包括操作员、用户和旁观者）的交互，以及决策责任从人类参与者向系统的日益转移，因为系统不会拥有人类所具有的决策的语义和上下文理解。这也可以被视为任务本身的固有复杂性和模糊性的表达。

复杂性科学将系统定义为复杂系统，如果系统的某些行为是系统各部分之间相互作用的涌现属性，而仅从各部分及其相互作用的知识中无法预测这些行为。复杂系统中涌现行为的原因缺乏知识与不确定性的概念密切相关，如以下定义所示：“与相关系统的完全确定性知识这一无法实现的理想的任何偏差”（Walker 等人）。复杂性的增加严重限制了关于系统行为的先验知识量，从而限制了对其动态进行建模和预测的能力。由于涌现现象存在于与系统组件本身不同的语义层面上，因此无法从系统内部轻易推断出它们的存在，从而导致本体论不确定性（Gansch 和 Adee）。例如，从表示为一组像素值的图像的角度来看，“行人” 的概念是一种涌现现象。

3.2 不确定性的维度

文献中提出了许多不确定性分类法；例如，如 Lovell和 Rocha Souza 等人的调查中所提供的。Knight的工作可以被视为正式处理不确定性的起点。Knight区分了三种类型的决策：确定性决策（I 型），其中所有选项的后果都是已知的；风险决策（II 型），其中可能的未来是已知的，概率分布是已知的，并且可以进行统计分析；以及不确定性决策（III 型），其中未来状态是已知的，但概率是未知的。安全保证的作用可以被视为努力促进在不可能实现 I 型的情况下进行 II 型决策，同时避免 III 型决策。

Lovell在决策背景下提出了不确定性分类法。他将不确定性的来源分为以下类别，其中复杂性在所有三个维度上增加了不确定性。然而，出于本文的目的，我们将调整术语以更好地与信息物理系统相关的语言保持一致：

1. 世界：来自自然世界（例如，复杂性、无序、随机规律性、动态性）和这个世界中的参与者（例如，行动、群体决策、不可预测的行为）的不确定性。在本文中，我们将这一类不确定性称为环境不确定性。

2. 证据：来自数据测量（例如，不精确、不完整）、语言证据（歧义、模糊）和来自参与者的证据（可能的错误、可能的欺骗）的不确定性。为了避免与安全保证角度的术语混淆，从现在起我们将这一类称为观察不确定性。

3. 决策者：来自处理能力（记忆失败、时间 / 资源限制）、解释证据的能力（语言能力、上下文知识）和心理模型（不正确、不完整、冲突）的不确定性。由于我们关注的是技术系统的保证而不是人类行为，我们将这一类不确定性称为技术系统不确定性。

对于在开放环境中运行的信息物理系统，这些类别的关系可以总结如下：环境（例如，城市交通）本质上是复杂的、不可预测的，并且即使不是不可能，也很难完全建模。该环境通过一组不完美的传感器进行观察，这些传感器具有不可避免的限制（例如，分辨率、视野、信号噪声等）。然后，系统尝试使用算法、启发式方法和 ML 的组合来理解这些观察并决定适当的行动。其中每一个都包括具有认知不确定性潜力的模型。

在本文的上下文中，我们主要关注保证不确定性，这与缺乏知识有关，因此对系统关键属性的保证论证的完整性和 / 或有效性缺乏可信度。这可以包括对支持保证论证的证据的有效性（包括统计可信度）以及推理链本身缺乏可信度。保证不确定性还可以包括对保证论证的整体主张的有效性和适当性以及论证随时间的持续有效性缺乏可信度。因此，保证不确定性可以被解释为关于技术系统中残留不确定性确定的一种观察不确定性，而这反过来又可能是环境、任务和系统本身的固有复杂性的产物。本文中使用的各种不确定性类别及其关系总结在图 1 中。

图1.不确定性的维度

3.3 不确定性的相对定义

不确定性不是二元属性，当比较不同的安全保证方法时，我们希望比较论证的相对强度。到目前为止讨论的分类法仅以定性术语提及不同类型的不确定性之间的差异。由于 ML 的大部分安全论证将基于定量属性和相关证据，因此一个明显的问题是何时可以量化，何时不能。

例如，概率论仅在概率可测量且可以给出合理的分布（或分布集）时适用。正如 Dow所澄清的，“为了使概率可测量，必须确定可能结果的范围，并且生成这些结果的结构也必须已知，无论是通过逻辑还是通过经验分析。” 因此，任何概率陈述都可以从其统计意义的角度受到质疑。反过来，任何关于意义的陈述都可以从对基础结构的知识的角度受到质疑。然而，这种知识本身可以关联多少可信度呢？理论上，我们可能因此陷入无限的 “不确定性阶梯”（Williamson）。

为了构建这个问题，Dow在可测量和不可测量概率的背景下提出了不确定性分类法。表 1 总结了层次结构的前四个级别。每个级别本身都可能受到不同程度的不确定性的影响，随着强度的增加，表明向层次结构的下一个更高级别过渡。例如，在级别 2，数据点周围的置信区间可能根据与之相关的不确定性程度而变窄或变宽。我们将这种正交的不确定性程度称为严重性，即最初由 Bradley 和 Drechsler提出并在表 2 中总结的判断难度。

表1.道琼斯指数层次结构的不确定性水平

表2.根据Bradley和Drechsler的不确定性严重程度等级定义

根据这个量表，判断的难度由决策者可用的信息量定义。在 Dow 层次结构的级别 1 和 2 中，当可以进行概率陈述时，不确定性的严重性通过与数据点相关的方差或置信区间来衡量，即通过可用证据的完整性。在级别 3，不确定性通过证据的有效性来衡量。在级别 4，可靠的定量陈述不再可能，不确定性管理在很大程度上依赖于定性判断。因此，与级别 4 的知识参考相关的严重不确定性或无知可以被视为未知未知、无知或本体论不确定性的表示。由于缺乏关于系统相关方面的基本知识或观察的可用性，这种程度的不确定性在系统的角度内无法管理。因此，它可以被称为不可管理的（Schleiss 等人），并且只能从能够访问系统及其环境的其他知识的外部角度来解决。

Dow 层次结构与 Bradley & Drechsler 严重性量表的结合为评估保证论证中断言的不同程度的不确定性提供了有用的指导，通过推理每个级别可以实现的可信度。例如，如果对训练模型鲁棒性的定量证据的可信度只能在级别 1 和 2 断言，那么鲁棒性将用已知的统计置信区间来衡量。然而，这些测量与所研究的主张的关系，以及支持证据的统计相关性的假设（例如，采样输入空间上的独立同分布假设）的适当性无法证明，从而削弱了保证可信度。该层次结构还表明，不确定性的可量化性随着级别的增加而降低，直到最终只能进行定性判断，从而增加了严重不确定性和无知的风险。当在第 5、6 节讨论保证可信度问题时，我们将重新审视该层次结构。因此，高可信度的安全保证论证可以定义为由许多断言组成，这些断言在 Dow 层次结构的前 4 个级别中的每一个级别中仅与轻度不确定性相关联。

4. 复杂性和不确定性对ML安全保证的影响

ISO 21448 标准《道路车辆 - 预期功能安全（SOTIF）》从由于系统功能不足或合理可预见的误用而导致的不合理风险不存在的角度来解决安全性问题。SOTIF 方法考虑了由功能的潜在不足引起的危害，这些不足在运行时被操作环境中的触发条件所揭示。与相关标准 ISO 26262 定义的功能安全相比，SOTIF 不要求存在明确的故障（如系统性软件错误或随机硬件故障）来触发危险行为。相反，该标准的重点在于基于系统规范或技术实现的系统固有局限性。该标准要求为每个安全目标定义验收标准，这些验收标准又被细化并分配给子系统，如感知或决策功能。验收标准可以定量表示，例如以可接受的事故率来表示。尽管最初是由与驾驶辅助系统相关的安全问题所推动，但该标准中的概念可以应用于各种场景，其中功能不足可能导致危险行为。

SOTIF 模型将风险降低任务描述为最大化已知可能导致危险行为的触发条件（已知未知）的数量，以便可以将其变为安全状态，同时最小化潜在危险的残留未知触发条件（未知未知）的数量。在 ML 的背景下，已知触发条件可以被视为已知会揭示训练模型中不足的输入，而未知触发条件则与训练和测试集中未考虑的输入有关，例如由于被认为无关的特征或环境中的分布偏移。SOTIF 似乎非常适合作为讨论 ML 功能安全性的基础，其中危险行为是由训练模型本身的不准确引起的，而不是由其执行期间的故障引起的。因此，它构成了 ISO PAS 8800《道路车辆 - 安全与人工智能》的基础。

Burton 等人根据 SOTIF 模型，将保证 ML 安全性的任务表示为证明满足以下基于定义的安全契约：

其中，对于所有满足操作设计域和系统上下文假设 A 的输入 i，模型 M 的输出必须满足由保证 G 定义的一组条件。对于现实的基于 ML 的应用，模型中不可避免地会残留错误。因此，保证涉及证明该契约被满足的概率符合风险验收标准。在这些情况下，ML 系统可以被视为 “可接受的安全”，当满足以下条件时，该条件还考虑了环境中潜在触发条件（i）的概率分布：

其中IPODD :I → [0, 1]是 ODD 的输入概率分布函数，为每个输入i ∈ I分配一个概率值，条件是P i∈I IPODD(i) = 1。在公式 2 中，左侧表示在假设 A 成立的约束下，输入满足保证 G 的概率。公式 2 表明，只要故障率（其中G(i, M(i)) = false)的概率）足够小，系统就被视为如 AC（验收标准）所定义的可接受安全。这种保证条件的表述与 Knight定义的 II 型不确定性（风险下的决策）相关，其目标是用至少 Dow 层次结构前四个级别的高确定性相关证据证明残留风险处于可接受的低水平。

SOTIF 标准根据规范不足和性能不足来定义功能不足，这两者都可以用第 3 节中介绍的不确定性模型来描述。这些不足可以被视为不确定性的表现，最终导致保证论证中的不确定性，并且可以沿着以下三个维度进行分类：

1.输入空间和任务：由数据点采样的输入空间的复杂性以及模型设计用于执行的任务的固有复杂性（与图 1 中的环境不确定性相关）导致的不确定性

2.数据：由用于模型训练或验证的采样数据点本身的潜在不准确性或不完整性导致的不确定性（与图 1 中的观察不确定性相关），以及

3.ML 模型：由 ML 模型的复杂性（例如架构或参数数量）导致的不确定性（与图 1 中的系统不确定性相关）。

4.1 规范不足

规范不足与适当的安全验收标准的有效性和完整性以及在目标环境中合理预期会出现的所有情况下可接受安全行为的定义有关。规范不足也可能源于相互竞争的目标和利益相关者对可接受残留风险的特定定义，导致与道德 / 社会可接受的系统行为相关的未解决问题。无法提供系统（安全）行为的完整规范，这与复杂系统的语义鸿沟和涌现属性本质上相关联，并且可以根据公式 1 和 2 中的定义分解为以下组件：

输入空间 I 的完整模型和相关假设A(i)的定义中的不确定性，这也可用于推理训练和测试数据的完整性和代表性。

保证G(i, M(i))表示分配给 ML 模型的安全要求）通常会细化为安全相关属性 P 的合取，这些属性可以使用相关指标和目标值进行定量定义。系统级安全目标（例如避免碰撞）必须细化为一组特定于 ML 的属性（例如精度、召回率、偏差、鲁棒性等）。这组属性应该基于对 ML 模型潜在性能不足及其原因（见下文）的理解而推导出来，这可能仅在测试和操作期间才变得明显。将安全要求识别和细化为 ML 模型的可测量属性及相关目标值是一项非平凡的任务。此外，对于每个属性，必须根据验收标准推导出验证目标，并以开发期间可测量的定量阈值来定义。

当在开放环境中运行时，在系统设计期间对输入空间所做的假设A(i)可能会随着时间的推移而失去有效性，无论是由于系统的环境上下文发生变化、系统被适配到不同的任务，还是通过现场经验获得了对上下文的更深入理解（例如发现了新的触发条件来源）。

4.2 性能不足

ML 模型通过从采样训练数据中学习一般概念来进行归纳工作。学习任务的复杂性是输入或特征空间中的数据点（语法级别）与要学习的概念（语义级别）之间映射的复杂性的函数。因此，任务复杂性的概念与可学习性的概念密切相关（Valiant）。基于这一概念，量化复杂性的一种方法是回归到样本复杂性，即问题被有效学习所需的样本数量。例如，如 Usvyatsov所讨论的，样本复杂性取决于基础模型复杂性（由 Vapnik-Chervonenkis（VC）维度或 VC 密度描述），而基础模型复杂性本身又是模型中权重数量的函数。任务复杂性与所需模型复杂性 / 表达能力之间的关系构成了训练模型的已实现复杂性。

性能不足与技术系统组件性能的不可预测性有关。ML 模型中性能不足的一个例子是系统对以前未见过的事件的不可预测反应（缺乏泛化能力），或尽管输入条件相似但系统行为的差异（缺乏鲁棒性）。我们认为，只有当任务复杂性、模型表达能力和已实现模型复杂性保持一致时，ML 模型才能实现最佳性能。例如，使用高度复杂的模型架构（如 DNN）和 / 或过多的数据来处理相对简单的任务（如低维多项式回归），可能会导致训练模型表现出高方差，即过度拟合到无关噪声；另一方面，使用简单模型（如浅层神经网络）和 / 或过少的数据来处理复杂得多的任务（如物体检测），可能会导致训练模型表现出偏差，即忽略特征与目标输出之间的相关关系。

由于实际上通常不满足可能近似正确（PAC）学习（Valiant）的形式要求（例如独立同分布样本、训练和目标分布之间的不变性或足够大的样本量），模型输出可能存在预测不确定性。因此，预测概率（例如基于 DNN 的分类任务的 softmax 输出值）不一定指示正确的实际概率，需要进一步获得对这些概率的可信度。

为了评估 ML 模型的性能，需要表达不足相对于一组可测量属性 P（如鲁棒性、偏差、预测确定性等）的表现方式。这些属性与满足安全契约的保证 G 的相关性可能高度依赖于应用和上下文。此外，这些不足的根本原因可能取决于多个因素，它们的存在可能会进一步加剧评估模型安全性的困难。

4.3 保证不确定性

公式 2 用于定义 “可接受安全” 的 ML 系统。然而，由于输入空间的不确定性，对于自动驾驶等复杂系统，输入分布函数IPODD永远无法完美表征。这凸显了计算此类系统实际故障率的挑战之一，因为任何测量最终都将对输入空间中事件（触发条件）的潜在未知分布敏感。因此，对此类系统故障率的任何测量都只能是运行期间实际经历的故障率的近似值，并且对触发条件分布的若干假设以及使用特定数据样本观察到的属性的外推敏感（数据不确定性）。这需要一种基于收集 ML 模型设计和性能证据的归纳方法，这是大多数安全保证形式的固有性质。

鉴于公式 2 中的条件无法被绝对确定地证明，因此保证挑战在于找到一组可以以足够可信度证明的条件，从中我们可以推断这些条件得到满足。这包括 ML 系统的估计故障率λM的概念，如果我们证明1 − λM ≥ AC，我们可能会推断由λM表示的 ML 模型的故障率足够低。λM可以定义如下：

其中 j 表示输入空间的唯一观察或测量样本，这些样本仅代表操作期间理论上可能经历的整个输入空间的一个子集。这里λM表示在假设域中的所有输入可能以相等概率出现的情况下，按需故障的估计概率，这不一定成立。此外，可能无法直接测量 G 中概述的条件是否满足，而是通过估计一组与 M 的可观察属性相关的条件P(j, M(j))来推断，这些属性被假设与模型满足其保证G(j, M(j))的能力相关。因此，这种安全保证方法所基于的假设可以表示如下：

保证不确定性因此可以表现为对估计故障率\(\lambda_M\)与运行期间发生的实际故障率之间差异的知识缺乏（公式 4 的左侧和右侧）。这个 “保证差距” 通常需要基于定量（例如与统计可信度相关）和定性论证（例如基于某些假设的适当性）的组合来弥合。正如我们稍后将展示的，保证差距对 Dow 模型的 3 级和 4 级不确定性特别敏感。在上述定义中，样本的选择仍然受到输入空间上的一组假设 A 的限制。通过放宽这个定义，可以评估模型对这些约束之外的输入的鲁棒性，以及假设本身的适当性。

基于本节中定义的一组定义，我们现在可以通过调整第 3 节中的定义来表达 ML 安全保证的目标，如图 2 所示。在下一节中，我们将描述一个典型的保证论证结构，用于解决功能不足问题，然后在第 6 节中更详细地检查此类论证中的保证不确定性。

图2.机器学习的不确定性表现和机器学习安全保证的目标

5. 保证论证结构

图 3 描述了使用监督 ML 实现的安全相关功能的保证论证结构。该结构基于该领域先前工作的综合，包括论证结构和相关证据的定义，包括 Burton 等人、Ashmore 等人、Burton 等人、Hawkins 等人和 Houben 等人。该结构用于推理此类论证解决了哪些不确定性表现，而对该结构有效性的评估则在第 6 节中提供。

图3.监督机器学习的顶级安全保证论证

G1 及其相关元素表示如公式 1 所表达的安全契约。保证 G 由 C1 和 C2 表示，它们定义了功能和相关安全要求，例如 “以 ±20 厘米的容差定位危险物体”，包括关于这些要求的可接受故障率的定义，例如允许检测超出容差区间的频率。A1 和 A2 分别定义了与操作环境（例如要识别的关键物体的分布和类型、环境约束等）和系统上下文（例如传感器读数的质量）相关的输入空间假设 A。请注意，图 3 中的论证结构不反映关于系统性故障或随机硬件故障的论证，这些超出了本文的范围，并将由额外的论证策略涵盖，如 A3 所述。保证论证涵盖了由 ML 模型实现的功能，这还可能包括预处理和后处理操作，如使用传统（非 ML）方法实现的数据清理和输出异常检测。这在论证中被称为 “ML 系统”。

给定这些先决条件，保证策略（S1）涉及证明功能不足及其原因已被识别并最小化或缓解。上下文 C3 定义了用于推动此论证策略的潜在不足原因集。

5.1 解决规范不足

主张 G2 的目标是证明已经导出了一套完整且一致的关于 ML 模型的安全要求，并且该要求足以确保由于残留错误导致的系统级危险行为的残留风险是可接受的低水平。论证的这一部分侧重于解决语义鸿沟和减少由输入空间和任务不确定性导致的规范不足。图 4 展示了 G2 的发展，以说明如何使用 GSN 表示法将保证论证细化到单个证据的级别。G2 进一步细化为子主张：

图4.规范有效性的保证论证模式

G2.1：输入域定义得足够好，以确保导出的安全要求、训练和测试数据的完整性。支持该主张的证据可以包括用于描述语义输入空间的标准化本体和来自先前经验的已知触发条件。

G2.2：导出的安全要求是完整的，并且与分配给 AI 系统的安全要求一致。与该主张相关的挑战包括证明所选的安全相关属性集（上述形式定义中的 P）足以保证整体要求，以及选择适当的指标和阈值集来定义属性的可测量目标值。这种属性的一个例子可能是对传感器噪声的鲁棒性，其阈值根据 L - 无穷范数定义。Bergenhem 等人、Gauerhof 等人、Hu 等人和 Ashmore 等人已经探索了此类属性的规范。ML 功能的安全相关属性的识别可以通过因果安全分析来支持，以确定不足的根本原因，从而确定功能的理想属性，以及最小化或缓解不足的措施，以防止它们导致危险。Salay 等人提出了一种新颖的安全分析方法 —— 分类故障模式影响分析（CFMEA），作为一种系统的方法来评估由于对抗性攻击或不同程度的分类不确定性导致的分类风险。支持该主张的证据可以包括安全分析的结果，以识别 ML 模型的安全相关属性，以及系统的（例如基于清单的）审查。

G2.3：AI 系统的性能限制定义得足够好，以确保在系统级别可以确保安全行为。该主张对于确保性能不足可以在系统级别得到补偿以避免危险行为至关重要，并且对应于与训练模型相关的已知未知的定义。支持证据包括针对导出的安全要求的性能分析结果（例如测试和形式验证）以及安全分析活动的结果。

5.2 解决数据中的不足

主张 G3 的目标是证明用于 ML 模型训练和验证的数据足以实现并证明 ML 模型相对于其导出的安全要求的所需性能。该主张还解决了 ISO 21448 中定义的一种规范不足。然而，与 G2 相比，该主张解决了由所选数据集定义的隐式规范。因此，其目标是解决第 3 节中定义的观察不确定性。该主张进一步细化为以下子主张：

G3.1：数据集由来自整个输入空间的合适观察选择组成。这包括关于数据集在输入空间的整体覆盖范围的代表性、数据集来源的适合性（例如，数据集收集的地点与预期使用环境之间是否存在潜在的地理差异）、包含足够能够揭示触发条件的数据，以及训练和验证数据集之间的独立性的子主张。证据包括数据集的理想属性的规范、数据选择策略、指定的数据集属性与 ML 模型导出的安全要求之间的可追溯性、数据集平衡验证以及输入空间定义和已知触发条件的覆盖范围分析。

G3.2：与数据集相关的元数据足够准确。这包括解决用于监督学习和测试目的的地面真实数据标记中的不足。手动标记可能导致元数据中的高错误率，这反过来将影响 ML 模型验证的性能和准确性。它还可能受到无意识偏见的影响，其中特定类别的输入受到标记错误的不成比例的影响。预处理技术（如自动缩放和转换，以将来自多个来源的数据转换为通用形式）也可能引入不足。

合成和增强数据（Shorten 和 Khoshgoftaar）可以降低与数据标记相关的风险（G3.2），但可能增加保真度或分布与目标操作环境的保真度或分布不够匹配的风险，因此需要在 G3.1 中进行额外的论证。特别是，这可能增加开发期间未检测到先前未知的触发条件的风险。使用公开可用且因此受到广泛审查的数据集（例如 Cordts 等人；Kotseruba 等人）可以帮助解决数据集完整性和完整性的潜在问题。然而，在安全关键应用中使用时，需要论证来证明与此类数据集相关的元数据的完整性（Northcutt 等人）以及它们对实际目标域的代表性。

5.3 解决设计中的性能不足

主张 G4 的目标是证明所选的 AI 技术和设计，包括一组合适的超参数的选择，本质上能够通过最小化 ML 模型中的性能不足数量来满足安全要求。这可以包括参考在系统开发期间以迭代方式识别的设计措施，并通过性能评估和后续安全分析提供信息。因此，其目标是解决第 3 节中定义的技术系统不确定性。该主张进一步细化为以下多个子主张：

G4.1：ML 技术和系统设计的选择本质上足以满足安全要求。该主张包括考虑 ML 模型的所有必要属性，以及第 4.2 节中描述的固有任务复杂性、模型表达能力和已实现模型复杂性之间的关系。例如，如果需要可解释性以获得对模型的足够信心，则模型应在设计上本质上是可解释的。支持该主张的证据可以包括分析和实证分析，以及参考类似任务类别的详细记录的基准。

G4.2：开发期间选择的措施可减少训练模型中与安全相关的性能不足。该主张包括参考开发期间的一系列措施，在给定足够训练数据的情况下，这些措施可最大限度地减少不足的发生。模型超参数及其训练过程的优化可减少不足，包括对对抗性扰动的鲁棒性不足。模型扩展（如可靠的不确定性估计可启用运行时机制以更好地缓解残留错误。其他措施可能包括避免过拟合以改善泛化特性。可视化分析可能是开发期间探索训练模型行为并识别输入空间中仍需要解决性能不足的元素的强大工具。

G4.3：定义架构措施以减轻模型中已知残留不足的影响。对于大多数实际应用，将 ML 模型中的不足减少到可接受水平是不可能的。因此，可能需要额外的架构措施来缓解残留错误。这些措施可包括基于冗余计算或输入空间语义知识的监控和合理性检查（例如，检测到的对象从一帧到下一帧的最大移动速率）。此外，分布外检测可用于在运行时检测可能导致 ML 模型错误结果的输入。与该主张相关的证据应包括根据可缓解的残留错误的类型和比例评估架构措施的有效性。

G4.4：评估开发环境和工具链的影响。该主张论证了开发期间实现和评估的性能水平代表了在技术系统内部署期间将实现的性能。这包括调查目标执行硬件对性能不足的影响（例如，由于数学精度的差异或由于资源限制导致的 DNN 修剪）。该主张还将包括对开发工具本身的可信度评估，以确保训练和部署期间的错误不会导致难以检测的性能不足。支持证据可包括目标测试以及工具资格和认证。

5.4 性能评估

主张 G5 的目标是证明训练模型的性能足以满足要求，并尽可能以高确定性证明这一点。对于上述主张 G4，这旨在解决第 3 节中定义的技术系统不确定性。在其最简单的形式中，此步骤可能包括使用一组代表性测试数据针对安全要求执行黑盒测试。然而，由于第 4 节中描述的限制，在没有额外主张的情况下，这不太可能导致足够的可信度水平。因此，G5 进一步结构如下：

G5.1：评估已证明分配给 ML 的所有安全要求均已满足。这涉及证明直接符合分配给 ML 模型的要求，并且可包括在模拟或其目标系统上下文中执行模型，通常涉及基于精心选择的数据集的黑盒测试。然而，由于诸如（缺乏）鲁棒性、非线性以及输入空间的复杂性和数据集本身的潜在缺陷等属性，将测试结果外推到所有可能输入的能力可能受到限制。尽管如此，基于需求的测试对于验证用于驱动模型设计和验证的导出安全相关属性（见主张 G5.x）确实导致满足安全要求也是必不可少的。

G5.x：评估已证明安全相关属性 x 已满足。这组主张评估为最小化模型中与安全相关的性能不足所需的各个属性 P。关于不同属性 P 的估计故障率可使用测试技术或形式验证进行估计。形式验证可包括对定义特定样本附近的有界超球体的详尽探索，以证明局部鲁棒性属性，并且已提出几种技术来将约束求解应用于此问题。通常，形式验证可提供特定属性的更完整估计，但目前在其可扩展性方面受到限制，并且可能仅实际应用于输入空间 I 的小子集或抽象。用于验证基础的代表性样本的选择还依赖于输入空间的若干假设和抽象，从而增加了此类证据在 Dow 的 3 级和 4 级的不确定性。

已提出许多测试用例生成技术来生成有效的测试数据以验证模型的特定属性。这些技术可由特定的覆盖度量指导，利用生成对抗网络（GAN）来合成现实场景。此外，测试充分性可使用结构和输入空间度量进行评估。

5.5 解决操作期间的不足

主张 G6 的目标是确保操作期间新出现的不足得到充分解决。这可包括解决环境 / 输入空间不确定性，例如以检测分布偏移的形式，以及通过解决操作期间检测到的先前未知的触发条件来解决观察 / 保证不确定性。操作期间检测到的故障可能是由于规范和性能不足。该主张进一步结构如下：

· G6.1：技术措施足以在操作期间检测和缓解残留和新出现的不足。该主张涉及证明用于检测操作期间分布偏移等效应的技术措施的有效性。这可能涉及特定于 ML 方法的架构措施，这些措施以对先前未知的触发条件的弹性概念扩展（G4.3），例如异常检测。该主张还可由系统级别的技术措施支持，例如在收到不足指示或模型输出中的高不确定性时的回退策略。

G6.2：程序措施足以解决操作期间的残留和新出现的不足。该主张涉及证明操作响应在操作期间发现不可接受的安全风险时的有效性。这可包括监控和数据记录、停止或限制系统使用的程序，以及确保模型更新以安全方式实施和部署的程序。这包括证明单调的安全改进，即模型中用于改善特定属性的更改不会导致其他属性的不可接受降级。

6. 评估保证论证的可信度

在本节中，我们应用 Hawkins 等人的原则来识别论证本身的不确定性领域。正如他们的论文中所提出的，可在保证论证结构中识别保证主张点，以指示在何处需要额外的可信度论证来支持断言的上下文、解决方案（与证据相关）和推理（与保证策略本身相关）。关于表 1 中 Dow 层次结构级别的不确定性定义可用于确定每个类型的断言已实现的可信度。我们通过检查第 5 节中概述的保证论证的若干方面所应用的三种类型的断言来说明此方法。表 3 演示了如何将这些类型的分析应用于基于 DNN 的行人识别功能的保证论证。

表3.基于机器学习的行人识别任务的保证声明和潜在改进措施的置信度分析

6.1 对减少规范不足的可信度

规范不足在主张 G2 中解决。与相关保证论证的可信度可评估如下：

· 断言的上下文：制定关于 ML 模型的足够详细规范的先决条件是对系统上下文和分配给 ML 模型的要求以及所有相关假设的充分理解。这对应于假设 A1..A3 和上下文 C1..C2。此断言上下文中的不足将削弱对 G2 所有子主张的可信度。这些断言可以陈述的可信度将高度依赖于系统级别提供的证据的可用性和性质。

断言的解决方案：图 4 提出了若干证据来支持 G2 的子主张。子主张 G2.1 表示 ML 模型的输入空间定义得足够好，以确保导出的安全要求以及训练和测试数据的完整性。这对应于表示输入空间不确定性已被充分减少。提议的证据包括使用标准化定义来描述语义输入空间（E2.1.1）、一组已知的触发条件（E2.1.2）以及用于确认输入空间理解的实证观察（E2.1.3）。与这些断言的解决方案相关的可信度论证将涉及证明证据的可信度和适当性，并确保已识别证据中的潜在缺陷并认为是可接受的。E2.1.1 本质上是定性的，导致 Dow 层次结构中 4 级不确定性的潜力。为了实现输入空间定义的可信度，证据 E2.1.2 和 E2.1.3 应因此确保可以调用直接观察来确认此定义，从而增加系统内结构关系的知识水平。然而，由于环境复杂性，可能难以实现这些证据的可信度，除非可以对输入空间和系统上下文做出足够严格的假设。否则，由此产生的本体论不确定性将需要通过系统中的外部措施或作为持续保证活动（见下文）的一部分在更长时间内收集的 E2.1.2 和 E2.1.3 形式的更广泛证据来解决，以减少观察不确定性。

断言的推理：子主张 G2.2 声称基于使用与 ML 模型安全性相关的一组常见属性的策略 S2.2，模型上导出的安全要求的完整性和一致性。对该策略有效性的可信度将取决于确定安全要求的满足确实可以由此属性集保证。如第 4 节所述，导出安全要求和一组合适的可测量属性的识别取决于任务复杂性。如上所述，实现对此断言的 Dow 级别 1..4 的可信度可能需要要么在系统级别限制环境和任务的复杂性，要么通过目标环境中的持续保证收集足够的观察，以论证属性选择的可信度。

6.2 对分布外检测以减少性能不足的可信度

子主张 G4.3 包括定义若干架构措施以最小化性能不足的影响，包括分布外检测（OoDD）以检测导致模型输出中高不确定性的先前未见过的输入。以下条件对于确保对此主张的可信度特别重要。

· 断言的上下文：选择 OoDD 作为措施取决于以下假设：在 ML 模型的操作阶段可能存在 OoD 输入，并且这些输入可能对满足安全要求产生可测量的影响。这需要满足两个条件：现场可能出现 OoD 输入，这本身需要对分布内（ID）输入的定义有可信度，以及此类输入对整体系统故障率的贡献。

断言的解决方案：确认 OoDD 措施有效性的证据可包括在明确定义的条件下执行的实证实验。然而，由于难以证明进行测量的条件集的合理性，Dow 级别 3 和 4 将更难实现。这是由于需要足够精确地规范 ID 和 OoD 输入，以及区分由 OoD 输入引起的故障和模型中存在的其他不足引起的故障的能力。这可被视为观察不确定性的另一种表现。

断言的推理：对 OoDD 本身是相关策略的断言的可信度可能因难以证明 ML 输出中的错误与其各自原因之间的因果关系而被削弱。这因难以提供 OoD 输入的足够定义（见上文）以及其发生的稀有性而加剧。

6.3 弥合保证差距

如前所述，在实现 ML 模型保证论证的足够可信度水平方面存在重大挑战。这种可信度的缺乏最终可追溯到图 2 和第 3 节中描述的不确定性表现。这不可避免地导致一个问题，即对于使用 ML 的复杂信息物理系统（如自动驾驶系统、移动物流机器人或医疗设备），是否现实地期望可以提出足够令人信服的保证论证。我们认为，回答这个问题的关键是通过应用本文中描述的定义和方法来理解和承认保证论证中的不确定性，并结合限制系统部署条件的复杂性以抵消由此产生的残留风险。

图5.迭代开发和持续保证

为了实施此方法，我们提出了如图 5 所述的本质上迭代的安全保证过程。该过程应在更广泛的系统开发和部署程序的上下文中看待，此处未详细说明。ML 安全生命周期始于基于分配的系统级别要求导出 ML 模型的一组安全要求。该过程的 “内部” 循环遵循数据收集、训练、评估和优化的重复循环。该过程通过显式的安全分析步骤扩展，以评估性能不足对安全要求的影响和原因。该分析可以是演绎或归纳性质的，或两者的结合，其目标是分析模型中可能导致违反安全要求的不足及其根本原因。基于结果，可定义一组额外的安全属性以扩展安全要求，以及用于 ML 模型的数据选择、设计和评估的额外措施。因此，安全分析是理解规范和性能不足并减少相应不确定性的关键驱动力。如果无法实现支持安全要求的证据的收敛，则可能需要重新协商安全要求本身。这包括向系统集成商传达 ML 模型中已知的残留不足，以便可以在系统级别设计补偿措施。例如，基于系统级别引入的冗余感知或规划机制，可以放宽 ML 模型的性能要求。该过程的内部循环重复进行，直到收集到足够的证据以形成第 5 节中概述的安全保证论证。一旦完成，即可评估保证分析的可信度，例如基于上述方法。如果在论证中发现缺陷，这可能导致需求的重新评估和内部循环的更多重复。一旦确认保证论证的可信度，ML 模型即可在其操作上下文中部署。

“外部” 循环由操作期间获得的知识触发，这可以采取以下形式。收集的观察结果要么减少环境 / 输入空间和观察 / 数据不确定性，要么增加它们，例如通过观察先前未知的触发条件或关于环境或系统上下文的假设中的矛盾。在前一种情况下，系统保证的可信度增加和不确定性减少可允许放宽操作限制和对环境的假设，以增加系统的实用性。尽管如此，这将需要重复保证生命周期并重新评估保证论证。在后一种情况下，系统或其上下文中的变化可能导致实际实现的残留风险增加。如果出现矛盾的证据，或提出主张所依据的假设不再成立，则支持主张的保证论证和证据可能会随着时间的推移失去其可信度。这可能导致停止服务或限制操作条件，直到可以构建考虑到这一新知识的具有足够可信度的保证论证。

7. 讨论和未来工作

在本文中，我们提出了一个框架，用于推理基于 ML 的安全关键功能的保证可信度。通过将一组不确定性定义应用于此问题，我们可以评估对于特定应用可以就 ML 的安全性做出哪些陈述，哪些不能。特别是，我们表明保证论证的某些主张可以比其他主张更有可信度地提出。ML 本身基于统计建模技术，而输入空间属性（触发条件）的出现通常只能由于环境的复杂性和观察中的不确定性而以受限的概率方式推理。因此，ML 的安全保证将需要关于系统残留故障率的统计论证，这并不奇怪，但这些统计论证的强度依赖于若干定性假设。因此，安全保证论证不可避免地需要由定量和定性断言组成，所有这些断言可能受到不同程度的不确定性的影响。随着收集更多证据和更深入地理解系统及其环境，意识到保证论证中的不确定性来源是弥合这些差距的关键。

论证特定性能不足表现的不存在（或足够低的概率），例如对输入中轻微扰动的鲁棒性不足，可依赖开发期间收集的定量证据。然而，需要跨 Dow 层次结构的足够可信度才能在风险下做出决策。这只有在满足某些假设时才能实现。另一方面，论证规范不足的不存在，包括输入空间定义中未知未知的不存在，可能在开发期间只能通过定性论证，而在操作期间收集间接定量证据（例如残留事故率）以指示残留不足的存在或不存在。

此类论证的可实现可信度水平将不可避免地取决于环境、系统和任务本身的实际（而非感知或假设）复杂性。规范不足也直接影响训练和测试数据的选择。由于规范不确定性是语义鸿沟的表达，从而是环境、系统和要执行的任务的固有复杂性的表达，限制这些因素将不可避免地减少保证论证中产生的不确定性的潜力。然而，保证论证中的残留不确定性将不可避免地存在。因此，我们描述了持续保证的作用，其目标是解决保证不确定性以增加对系统的可信度，从而允许逐步取消对环境、任务和系统复杂性的限制。

基于这些思考，对于哪些类别的 ML 系统可以提出可靠的安全保证主张？本文中的分析得出了不足为奇的结论：在环境和任务中存在高不确定性但在理解系统行为方面存在高确定性的情况下，系统地和持续开发和评估的保证论证最终可能导致足够的可信度水平。同样，在规范中存在低不确定性但在理解系统行为方面存在高不确定性的情况下（例如，使用具有固有缺乏可解释性的 DNN 来学习定义良好、相对低复杂性的任务），也可能开发出令人信服的保证论证。然而，在环境、任务和系统本身中存在高水平不确定性的情况下，基于当前方法和技术，无法想象针对可接受的低残留风险水平提出令人信服的安全保证论证。这也意味着 ML 的安全保证论证不会有 “一刀切” 的解决方案。因此，本文应在开发 ML 的稳健保证论证以及确定在哪些条件下无法针对特定应用和 ML 技术选择提出此类论证时提供有用的指导。

我们认为本文是系统处理基于 ML 的系统安全保证中不确定性的第一步，并确定了若干可能有趣的研究领域。首先，更好地定义和理解固有任务和环境复杂性将提供方法来确定是否可以想象针对特定问题的保证论证。这可能包括提供任务比较评估的标准，以确定可证明成功的保证策略可在多大程度上转移到新领域。这项工作可通过将框架应用于若干具有环境、任务和系统复杂性变化的用例来支持，以更好地理解影响保证论证可信度的因素。其次，我们认为在提出用于提供 ML 安全性证据的新指标或方法时，需要考虑断言推理的问题。在开发创新技术（例如用于提高鲁棒性、OoD 检测或预测确定性）时，应明确考虑这些属性对安全要求的影响的假设集，以及证明技术的相关性和有效性的方法。否则，使用此证据的保证论证中的不确定性将不可避免地存在。最后，我们看到扩展和应用现有技术以定量评估保证论证可信度的潜力（见第 2 节，但此处未应用）。将这些方法与本文中使用的不确定性类别和严重性相结合，可能允许改进工具支持，以构建和评估保证论证。这可能包括影响分析支持和基于操作期间新收集的观察的自动重新评估。

本文由豆包软件翻译，如有不当之处请参照原文下载请扫二维码：

往期精彩