仿真驱动的AI自动驾驶汽车安全设计与测试

摘要

自动驾驶汽车（AV）集成了复杂的感知和定位组件，以构建其周围世界的模型，进而实现安全导航。这些组件中普遍采用基于机器学习（ML）的模型，从含噪声的传感器数据中提取目标信息。这些组件的要求主要是为了达到尽可能高的精度。现代自动驾驶汽车配备了多种传感器（摄像头、雷达和激光雷达），实时处理所有数据导致工程师需要进行权衡，这可能在某些驾驶场景下导致系统性能欠佳。由于对各个组件缺乏精确要求，模块化测试和验证也变得具有挑战性。

在本文中，我们提出了从顶层驾驶场景仿真中推导出安全自动驾驶行为所需的抽象世界模型精度的问题。这在计算上具有挑战性，因为世界模型可能包含多个具有多种属性的目标，而且自动驾驶汽车在仿真过程中的每个时间步都会提取一个世界模型。我们描述了有效解决该问题并推导出组件级要求和测试的方法。

1. 引言

随着传感器和计算技术的进步，自动驾驶领域正在迅速发展。由于自动驾驶汽车必须在各种条件下运行，且其系统实现复杂，因此确立自动驾驶汽车的安全性是一项具有挑战性的工作。自动驾驶汽车中的定位和感知组件接收传感器和地图信息，构建世界模型以捕捉自动驾驶汽车周围的环境。然后，该世界模型被传递给规划模块，以根据其目标生成安全的轨迹。基于摄像头和激光雷达的感知组件越来越多地使用机器学习模型进行二维和三维目标检测。

很难为基于机器学习的感知制定安全要求，因为不清楚不准确的感知是否会（以及如何）违反顶层安全目标。在实践中，不同自动驾驶汽车组件的要求由领域专家提出，且在很大程度上基于经验。此外，这些要求设定得较为保守，并且在不同的驾驶条件和操作设计域（ODDs）中通用。例如，与稀疏的乡村道路相比，定位组件在繁忙的十字路口应具有相对更高的精度。同样，在高速公路上，感知组件应同时具有高召回率和高精度，但在行人区可能只需要高召回率。在理想情况下，人们希望使用许多高分辨率（例如 2400 万像素）的摄像头以高帧率（例如 120 帧 / 秒）运行，并采用多个高精度、复杂的深度神经网络模型，以尽可能高的精度感知车辆周围的一切。由于自动驾驶汽车运行在资源受限的平台上，系统设计师需要进行权衡，设计出足够精确的系统（例如，使用 200-800 万像素的摄像头、30 帧 / 秒的帧率以及精度稍低的优化 / 量化深度神经网络模型）。这种基于通用要求的解决方案可能导致系统在某些需要高度精确感知的条件下安全性降低（例如，在十字路口从侧面快速接近的目标可能需要增强跟踪）。

硬件在环（HIL）和软件在环（SIL）仿真为自动驾驶系统提供了有效的端到端测试方法。硬件在环测试使用汽车硬件、传感器，并可能使用执行器进行系统验证。软件在环（SIL）仿真用于设计阶段以及单元测试和集成测试，其中单元或组件的输入要么是自动生成的，要么是手工制作的，以模拟不同输入参数的有效性。

为了使自动驾驶系统设计能够更好地利用资源以实现更安全的驾驶，我们提出了一种仿真驱动的方法来计算安全自动驾驶行为所需的世界模型精度要求。由于这种基于仿真的方法计算成本高，我们还描述了探索状态空间的有效方法。我们的方法具有以下优点：（i）它允许从顶层系统要求和驾驶场景中推导出组件级要求，实现可追溯性；（ii）它有助于根据驾驶场景定制世界模型精度要求，允许通过提高另一个组件的精度来补偿一个组件的不准确性；（iii）它形成了一个正式框架，用于在集成和系统级测试中调查组件级故障，这是经典安全标准 ISO 26262和预期功能安全（SOTIF）所需要的，而顶层驾驶场景仿真中目前缺少这一框架。

本文的其余部分组织如下：第 2 节描述相关工作。第 3 节提出了驾驶场景中安全性的形式化定义，以及自动驾驶汽车组件级设计和测试中的挑战。第 4 节提供了计算世界模型精度的方法及其在要求推导和测试中的应用。第 5 节总结了本文。

2. 相关工作

在基于顶层场景的仿真以确立对自动驾驶行为的信心方面，已有大量工作。OpenScenario是一种用于描述仿真场景的高级语言。Waymo 最近发表的研究展示了其自动驾驶汽车在事故场景中的行为。多项研究进一步探索了场景操纵，以发现不安全的自动驾驶行为。Li 等人使用模糊测试来操纵场景并发现不安全的自动驾驶行为。同样，Tuncali 等人开发了一个基于仿真的对抗性测试框架。还探索了用于加速搜索和加速罕见事件概率评估的智能场景生成。Ghodsi 等人还采用了一种生成对抗性场景的方法，以及一种基于自动驾驶汽车维持安全性的难易程度来表征这些场景的方法。Zhao 等人开发了一个名为 Suraksha 的框架，用于研究感知降级对自动驾驶安全性的影响。Menzel 等人分析了场景抽象，以创建一种遵循 ISO 26262 标准开发过程的车辆导航系统设计方法。还研究了基于神经元覆盖的机器学习白盒测试来分析场景。

鉴于机器学习在自动驾驶中的重要性，最近的工作广泛关注机器学习在安全关键应用中的鲁棒性。Sina 等人讨论了将经典汽车标准扩展到机器学习安全的挑战和想法。Singh 等人探索了汽车系统设计对基于机器学习的感知的影响。最近的 UL4600标准和机器学习安全生命周期为确立基于机器学习的感知组件的安全性提供了指导方针，然而，它们依赖于完善的需求工程方法来实现此类感知组件。同样，《自动驾驶安全第一》白皮书建议使用基于清单的方法来制定感知相关任务的规范。

然而，它也承认这样的清单很容易过时。将这种方法扩展到不同的感知相关任务具有挑战性。Vogelsang 等人承认基于机器学习的系统的需求工程（RE）面临挑战。他们声称，需求工程生命周期需要分为诸如启发、分析、规范、验证和确认等活动，这些活动需要科学家、需求工程师、法律专家和客户之间的密切协调。Caroline Hu 等人提出了一种方法，用于指定基于机器学习的感知组件对输入的小扰动的鲁棒性要求。这种方法不分解系统级要求，而是以人类性能作为基准。

3. 自动驾驶汽车的设计和测试

现代自动驾驶汽车（AV）由以下组件组成：一组用于观察环境的传感器、一个用于检测环境中静态和动态目标的感知模块、一个用于估计自动驾驶汽车在地图上位置的定位模块、一个用于预测动态目标行为的轨迹预测模块、一个用于生成驾驶轨迹的规划模块，以及一个用于生成驱动车辆的控制命令的控制模块（包括在线碰撞预测和避免模型）。为了我们的目的，我们简化了这种架构，让规划模块包括预测和控制模块。如图 1 所示。

图1: AV架构

3.1 驾驶场景

感知和定位模块的输出是一个世界模型，它捕捉所有静态和动态目标以及自车的状态。目标的属性包括其类别（或类型）、形状、位置、速度、加速度以及准确和舒适驾驶所需的其他信息。我们用 σ 表示给定时刻的世界模型状态。

运行设计域（ODD）规定了自动驾驶汽车安全性分析的约束条件。这些约束条件（例如，对车辆速度有限制的区域或路段）限制了空间，并允许进行实际分析。对于给定的运行设计域，使用 ISO 26262和 21448（SOTIF）标准进行危害和风险分析（HARA）。对于每个危害，推导出一组安全目标 G。例如，在高速公路运行设计域中，一个危害是由于自车速度突然变化导致的纵向碰撞。这产生了一个安全目标，即自动驾驶汽车应防止非预期的纵向加速 / 减速。

对于每个安全目标 g∈G，可以创建一组用于测试的驾驶场景 Θ₉。每个场景 θ∈Θ₉包括环境、参与者数量、他们的起始位置以及在场景过程中的动作的变化。一个场景包括参与者和自动驾驶汽车行驶的地图部分、环境条件（例如天气和道路条件）、一组参与者和自动驾驶汽车的初始速度和位置、每个参与者在执行过程中将采取的一组机动动作。我们假设参与者遵循智能驾驶员模型（IDM）。场景 θ 在时间 0 开始，在时间 T 结束。我们说自动驾驶汽车在场景中是安全的，如果自动驾驶汽车在场景期间的任何时间步都没有与任何其他目标的距离在 r 以内。参数 r 取决于安全目标。在这项工作中，我们只考虑假设自动驾驶汽车采用智能驾驶员模型（IDM）的安全场景。

3.2 设计挑战

经典的汽车安全标准 ISO 26262 从项目定义开始，随后进行危害分析和风险评估。这提供了一组安全目标，进而产生安全需求。传统上，顶层系统安全需求被分配或分解到各个组件中。

对于日益复杂的自动驾驶软件栈，这种分解很困难，因为：（i）将要求分配或分解到自适应规划算法具有挑战性；（ii）自动驾驶系统由多个组件组成，例如传感器、感知模型（例如障碍物、车道、交叉路口、路标检测）和定位，它们共同工作以创建世界模型，而每个组件本质上都存在不准确性；（iii）自动驾驶汽车中的感知组件基于机器学习，由于其黑盒性质，引入了新的、不太被理解的故障模式，这些模式未被经典汽车标准所涵盖。

在缺乏自上而下的需求分解的情况下，自下而上的设计方法对各个传感器、定位和感知组件施加了要求。例如，传感器组件施加了限制传感器噪声的要求，感知组件施加了目标检测的精度要求。这种通用约束导致某些组件过度设计，并限制工程师配置静态系统，即不依赖于世界模型和驾驶场景而部署相同数量的资源。这错失了自适应设计的机会：例如，自动驾驶汽车可以增强交叉路口的横向交通感知能力，并能够跟踪可能违反交通信号并发生碰撞的快速接近车辆。在这个例子中，虽然自动驾驶汽车没有过错，但自适应感知可以提高整体安全性。

为了解决这个问题，我们的提议使用顶层场景仿真来推导出定位和感知的要求。直观地说，我们限制状态观察中的世界模型误差，以便以自动驾驶汽车不违反安全目标的方式获得组件级要求。

3.3 测试挑战

安全目标 g 的一般验证问题是确保自动驾驶汽车在所有驾驶场景 Θ₉中都是安全的。这是难以处理的，因为可能的场景数量在理论上是无限的：两个场景可能在目标的速度、位置、大小或目标总数上有所不同。相反，汽车安全标准要求通过单元、集成和系统级测试进行严格的分层验证。单元测试通过结构覆盖确保各个单元的正常功能。集成测试确保单元之间交互的静态和动态方面得到充分测试。系统测试验证系统行为。ISO 26262 规定，每个级别都要满足多个目标，以最小化安全风险。例如，强烈建议系统级测试包括等价类分析和故障注入测试。

如今，仅限于基于顶层场景的仿真的做法未能满足经典安全标准的期望。我们展示了我们的自上而下的需求推导如何有助于执行更系统的测试。

4. 仿真驱动的需求推导

我们现在描述我们的方法，以表征安全的世界模型误差，并使用基于顶层场景的仿真创建组件级要求。

4.1 方法和公式

我们利用驾驶场景仿真框架将安全需求分解到自动驾驶栈中，以推导出组件级要求。我们的方法总结在图 2 中。对于场景 θ，目标是获得 Γᵩ，即一组不会导致安全违规的感知世界模型误差值序列。我们将误差序列称为 γ̂∈Γᵩ，每个时间步的误差称为 γ₀...γᵀ（下标指时间步），其中为了符号方便，场景 θ 是隐含的，T 是场景 θ 的长度。

图2:计算世界模型误差安全轮廓和推导组件级要求的方法

在场景 θ 的每个时间步 tᵢ，将误差分量 γᵢ添加到世界模型状态 σᵢ中，并作为输入提供给规划算法，规划算法随后生成执行器值（动作）。执行改变了仿真器中自动驾驶汽车在下一个时间步 tᵢ₊₁的状态。仿真器还根据场景描述更新所有其他参与者的状态，并将状态 σₜ₊₁传递给自动驾驶汽车用于 tᵢ₊₁。

直观地说，Γᵩ规定了组合感知和定位任务的要求（也可用于测试），即如果在场景 θ 期间观察到的误差小于 Γᵩ中的值，则自动驾驶汽车将是安全的。这在第 4.4 节中更详细地讨论。我们的目标是获得包含 Γᵩ的轮廓，即场景 θ 的所有安全世界模型误差序列 γ̂。

4.2 计算安全轮廓

对于小的 N 和相对较大的离散化粒度，均匀采样离散化的 N 维空间是一种可行的方法。完全随机的方法将以每个维度所需的离散化粒度随机采样整个空间。这种方法（如图 3 所示）可以识别自动驾驶汽车保持安全的点集（每个 γ̂一个点）和不安全的点集，可用于定义近似轮廓。通过首先为每个维度找到最大 γᵢ（保持所有其他 γⱼ=0（i≠j）），可以限制这种方法。

图3：Γθ的N维空间（N=2）的示例可视化，其中每个绿色点表示一系列世界模型误差γˆ，这些误差不会影响给定场景的安全性。两个轴表示两个时间步长中每个时间步长的世界模型误差（在本例中表示维度）

我们的方法为导致安全自动驾驶行为的世界模型产生保守要求。我们可以通过使用故障注入直接扰动世界模型状态，检查已建立的安全状态 Γᵩ和不安全状态之间的世界模型状态范围，进一步细化要求。世界模型状态是多维的，具有许多目标，每个目标都有多个参数，例如位置和速度。因此，搜索世界模型状态以找到不安全状态可能很复杂，因为参数在安全性方面可能是相互依赖的。一种简单的故障注入方法是一次扰动一个参数，同时保持其他参数不变。例如，可以使用基于HAZOP的引导词进行故障注入，例如更多（定性增加）、更少（定性减少）、提前（相对到达 / 离开）、延迟（相对到达 / 离开）、无或不（否定）、其他（替代）。随着世界模型状态空间的探索，安全状态和不安全状态之间的特定边界产生了更精确的世界模型精度要求。

4.3 高效的误差空间探索

我们现在看看有效探索世界模型误差空间的技术。

· 约束误差：限制误差空间的一种自然方法是遵守物理和现实约束。例如，限制非自动驾驶车辆位置的误差，使其不会位于天空或道路之外，或者车道只能是直的和偏移的，但仍然在道路上。不遵循这些约束的误差可以很容易地被检测到，并可以采取纠正措施，例如 fallback 到备用系统或提醒人类驾驶员。

· 基于安全分数的等价类分析：在特定场景下驾驶时，世界模型某些属性的变化（或误差）可能对自动驾驶汽车的安全性产生类似的影响。这样的误差可以被认为是等价的。通过使用预测安全分数的启发式方法，如果预期安全度量与已经执行的仿真相似，我们可以跳过该仿真。

· 限制到最可能碰撞的障碍物：鉴于我们了解场景，我们可以确定如果自动驾驶汽车行为不当，那些靠近且可能与自动驾驶汽车碰撞的障碍物。例如，可以使用相对速度和距离来确定如果自动驾驶汽车在某些约束下加速，是否可能发生事故。可以利用估计碰撞时间（TTC）的方法来识别定义误差空间的目标。这些目标可以在自动驾驶汽车的前方、后方或侧面。这种目标修剪（或选择）方法可以显著减少总探索误差空间。Suraksha 框架中考虑了这种方法。

· 用于快速探索的抽象模型：使用详细的仿真器，该仿真器以真实感方式建模所有世界目标，以捕获真实的传感器数据和详细的生产级自动驾驶汽车，对于推导要求（以及最终基于这些要求的测试）可能过于缓慢。使用可以将大约 10 秒的场景在实际时间中模拟到仅几毫秒的设置（提供 100-1000 倍的加速）可以使探索可行。这种设置可以通过使用快速仿真器来实现，该仿真器仅建模运动学，并通过跳过以下步骤将世界模型直接传输到自动驾驶汽车：仿真器中的传感器数据提取、将数据传输到自动驾驶汽车、在自动驾驶汽车中处理传感器数据、自动驾驶汽车中的感知和定位模块以及自动驾驶汽车中的执行步骤。

基于梯度的需求传播：世界模型目标的属性包括连续变量。例如，目标与自车的距离或该目标的速度是连续变量。因此，N 维误差空间在很大程度上是连续的。空间中的每个点都可以与一个连续的安全分数相关联，该分数表示该点的相对安全性。这种对世界模型空间的看法允许采用基于梯度的搜索，有可能找到安全点和不安全点之间的边界。基于梯度的搜索过程首先需要将安全分数定义为世界模型空间 N 维的评分函数。例如，自车到最近目标的距离就是一个可能的评分函数。基于梯度的搜索通过评估选定维度上的点来进行，直到发现不安全点。此后，将探索每个维度，直到发现安全点。为了考虑维度之间的依赖性，可能需要对每个维度进行多轮评估。

4.4 推导需求和测试

将安全轮廓转化为需求：计算安全轮廓的一个主要目标是确定由于定位和感知组件的误差导致的安全容差。为此，可以将世界模型误差分为两部分：（i）定位误差，由纵向的 Lₗₒₙ和横向的 Lₗₐₜ参数化；（ii）感知误差，由自动驾驶汽车前方半径为 Pբ、后方半径为 Pᵣ和侧面半径为 Pₛ的圆形区域部分表征。在这里，我们选择了前方、后方、侧面的静态定义（相对于自车的行驶方向有固定的角度）。我们可以假设，如果目标的边界框与地面真实边界框的交并比（IoU）高于某个阈值，且检测到的类别与地面真实目标的类别匹配，则感知组件能准确识别目标。如图 4 所示。

图4:本地化和感知的参数化要求

需求的可追溯性和聚合：安全轮廓模型提供了驾驶场景与推导的定位和感知组件需求之间的可追溯性，因为每个需求都可以追溯到导致不安全状态的驾驶场景仿真。由于推导的需求在不同场景中可能略有不同，因此希望根据相似的驾驶场景聚合这些需求。探索基于误差容差将场景分组到等价类中的方法是一个有趣的研究方向。这种方法能够实现专门化以提供更好的安全性。例如，增强交叉路口横向交通的感知可以使自动驾驶汽车更安全，因为违反信号或路标的横向交通是导致不安全情况的常见驾驶员失误之一。

组件级测试方法：推导的组件级需求提供了从驾驶场景到组件级测试的自然分解。这些测试可用于硬件在环（HiL）和软件在环（SiL）仿真，以确保定位和感知组件满足这些测试要求。精确的需求还允许在定位和感知组件中轻松注入低级故障，以验证我们的安全轮廓分析，即如果不满足推导的需求，会导致世界模型误差超出安全轮廓，进入不安全区域。

根据高效误差空间探索中使用的方法，推导的需求可能对系统功能做出抽象假设。准确的测试应确定这些假设的有效性，并帮助诊断部署的系统与所做假设之间的差异。

我们注意到，由于这些测试仿真依赖于实际的定位和感知组件，它们必然比安全轮廓分析仿真慢，这为进行集成和故障注入测试的统计分析开辟了新方向。

挑战：尽管描述了用于高效状态空间探索的技术，但应用这种方法仍存在一些挑战。第 4.4 节中描述的感知和定位需求参数化模型可以包含更多参数。需要研究使用较简单与较复杂的参数化对系统效率的影响。此外，通过这种仿真驱动方法获得的需求的充分性需要在现实世界环境中进行测试 —— 主要是为了确保仿真器的假象不会影响现实世界的安全性。