自动驾驶中安全相关机器学习功能的可靠性定义方法

牛喀网 2025-08-07 09:26

 资讯配图

资讯配图

摘要

当前标准无法涵盖高自动化驾驶中基于机器学习功能的安全需求。由于神经网络的不透明性,一些自动驾驶功能无法按照 V 模型进行开发。这些功能需要对标准进行扩展。本文聚焦这一空白,为这类功能定义了功能可靠性,以帮助未来的标准控制基于机器学习功能的质量。以行人检测为例,构建了可靠性函数。由于计算机视觉中的质量标准未考虑安全性,因此设计了新的可靠性表达和评估方法。


1. 引言

半导体产业和人工智能的发展使我们离完全自动化驾驶越来越近。然而,从手动驾驶辅助到脱手自动化驾驶的转变,需要系统安全性发生巨大变化,这可能会重塑车辆安全系统的开发流程,并重新定义制造商和用户之间的法律责任。人工神经网络的应用被视为解决高自动化驾驶(HAD)中部分甚至全部任务的有效方法,但神经网络的不透明性对标准开发流程和功能安全考量提出了挑战。

在这项工作中,我们探讨了现有标准在高自动化驾驶车辆中基于机器学习功能的适用性,并提出了一种新的可靠性来填补高自动化驾驶安全需求的空白,而当前标准并未涵盖这一空白。我们构建了函数,以数学方式表达行人检测中的这种可靠性,并归纳了可以提高这种可靠性的方法。

本文的结构如下。第 2 节介绍了当前标准在应用于高级自动驾驶车辆时的不足。在第 3 节中,我们限定了应用范围,并为不同目的定义了可靠性函数。第 4 节讨论了可靠性的增强方法。我们在第 5 节总结了我们的工作。


2. 功能安全的转变

功能安全是电气 / 电子 / 可编程电子(E/E/PE)系统整体系统安全的重要组成部分。其目的是保护人们免受因人为错误或系统失效导致的不可接受的人身伤害或健康损害风险。在汽车行业,由于电子元件的高度集成及其与安全性的密不可分的关系,必须在概念阶段详细考虑功能安全,并在测试阶段进行全面验证。因此,国际标准化组织发布了 ISO 26262:《道路车辆 —— 功能安全》,为汽车制造商提供指导。另一方面,ISO 21448:《道路车辆 —— 预期功能安全》(通常缩写为 SOTIF)专注于如何规范、开发、验证和确认目标功能,使其被视为足够安全。

在过去十年中,神经网络(NN)和深度学习的发展在计算机视觉和机器人领域取得了突破,这对当今学术界和工业界的自动驾驶产生了深远影响。在汽车行业,传统的功能安全标准不再适合指导基于神经网络的安全功能的设计和验证。ISO 26262 遵循著名的 V 模型,该模型将目标功能分解为子规范,并在这些规范下进行开发。这样的过程被称为白盒,整个数据处理是透明且可理解的。相反,神经网络通常是黑盒,输入和输出之间的映射是一种统计近似,人类无法理解。SOTIF 旨在解决 ISO 26262 的这种不足,但主要关注驾驶辅助系统,而不是高自动化驾驶系统。在驾驶辅助系统中,当发生失效时,驾驶员应安全接管车辆。然而,高自动化驾驶系统本身应确保在发生失效时处于无危险状态。因此,SOTIF 无法涵盖高自动化驾驶的安全需求。高自动化驾驶的前景要求更多地关注汽车中基于神经网络功能开发的规范化。规范化的核心工作之一是将功能安全需求纳入高自动化驾驶功能中。就像 ISO 26262 中对硬件可靠性的要求一样,高自动化驾驶系统中功能的可靠性也应被定义,以便确定相应的汽车安全完整性等级(ASIL)和安全方法。

然而,ISO 26262 中定义的可靠性无法描述高自动化驾驶功能的可靠性。在高自动化驾驶系统中,将使用多个传感器来感知环境。基于环境建模,神经网络将被用于理解周围环境(例如行人、障碍物和停车位)并控制车辆安全行驶。在这种情况下,与传统的车辆机电系统不同,一个特定的传感器负责多项任务,而多个传感器协同工作以完成一项特定任务。因此,我们提议使用功能可靠性来描述特定高自动化驾驶功能的质量。功能可靠性可以在开发阶段通过使用验证数据集进行验证和计算。在未来的标准中,可以给出可靠性基准来指导汽车制造商。以下各节将通过一个示例来阐明这一概念。

同样,软件工程中存在软件可靠性的概念。它也不能涵盖高自动化驾驶的安全需求,因为没有考虑不同功能对安全性的不同影响。想象一下,未检测到道路上的人以及未检测到停车位的后果。与软件可靠性不同,功能可靠性是以功能为导向的,服务于安全评估。

资讯配图


3. 机器学习功能的可靠性

在本章中,我们以行人检测为例,阐明如何评估高自动化驾驶中机器学习功能的功能可靠性,以及它如何描述该功能在安全性方面的质量。

3.1 功能边界

在诸如 STAMP(系统理论事故模型与过程)等系统安全方法中,必须明确定义安全约束或边界。为了分析预期功能的可靠性,需要明确功能边界和用例。因此,已定义的用例只是预期功能的一部分。

高自动化驾驶有两种策略:端到端策略和感知 - 规划 - 行动流水线策略。端到端意味着算法将传感器数据直接映射到驾驶命令,没有任何中间步骤,而经典方法则手动将过程分解为上述流水线。NVIDIA 认为,手工设计的接口通过限制系统中的信息流最终会限制性能,并持续研究端到端解决方案,他们开发了 PilotNet 来验证该策略。然而,端到端学习方法的安全需求更为抽象,制定和验证可测量的性能标准明显更加困难。分解后的过程通常遵循感知与定位、高级路径规划、行为仲裁、运动控制的流水线。在每个部分中,都会设计若干功能。因此,可以狭义地定义功能边界,以便在产品投放市场时明确法律责任。因此,考虑到可执行性,我们制定的第一个边界是:基于机器学习的行人检测的可靠性是针对分解的高自动化驾驶策略定义的。

训练技术是另一个深刻影响安全边界的因素。神经网络可以经过充分训练后再应用。在应用过程中,网络的知识、能力和性能不会改变。这就是所谓的离线训练。这种训练是集中式的,所有部署都具有完全相同的性能。相反的是在线训练,神经网络在应用过程中不断从输入中学习,为此,需要一种评估输入的机制。显然,由于个体差异,这种网络的每个部署都会有不同的演化。这种方法经常用于强化学习。显然,分散式、在线训练目前对安全验证提出了巨大挑战。因此,我们定义第二个边界:所考虑的可靠性针对集中式、离线训练的神经网络。

在这些约束下,我们定义了高自动化驾驶中的行人检测功能。首先,我们制定优先定义,该定义与安全相关,应进行验证。接下来是广义定义。

优先定义:在城市地区(车速通常低于 60 公里 / 小时),检测和跟踪自动驾驶车辆行驶方向前方的所有行人。

广义定义:检测和跟踪车辆周围所有方向的所有行人。

图 1 显示了用例场景和相应的定义区域。

资讯配图

图 1. 驾驶场景。红绿色区域满足优先定义。红到绿的颜色渐变描述了采取行动的紧迫性。检测区域 1 中的人对质量要求最高,而区域 2 中的预测能力衰减是允许的。与区域 3 中的人进行交互属于行人行为理解研究。由于其与安全无关,检测区域 4 只是广义定义的任务


3.2 功能的统计可靠性

相机是通常用于行人检测的主要传感器。基于卷积神经网络的神经网络将用于图像处理。与传统传感器直接将测量量转换为电信号不同,神经网络的输出是基于大量训练数据的统计结果。传统传感器给出的测量值具有满足高斯分布的置信区间,可以用测量不确定度来表示。这种表示在质量管理中是有意义的。神经网络的预测也给出了置信度,然而,该值反映的是样本与拟合函数的拟合优度,并不能匹配正确预测的实际概率。因此,这种描述不适用于可靠性。

在计算机视觉中,以下概念广泛用于衡量目标检测:tp(真阳性)、fp(假阳性)、fn(假阴性)、tn(真阴性)、P(精确率,tp 与所有检测结果的比值)、R(召回率,tp 与所有真实值的比值),

资讯配图

以及 IOU(交并比):

资讯配图

其中 A 表示图像中区域的面积,D 是检测到的目标边界框,T 是匹配的真实边界框的面积。

由于这些概念从不同维度定量描述了单目标检测算法的质量,我们打算在定义可靠性时对其进行扩展。

tp 和 fp,或者 P 和 R 在数学上不是独立的。预定义的 IOU 阈值决定了 tp 和 fp 之间的边界。当 IOU>IOU 阈值时,检测结果为 tp,反之则为 fp。因此,应为高自动化驾驶中的所有行人检测方法统一定义 IOU 阈值,以便定义单次检测的基本质量,并使 P 和 R 能够解耦。定义 IOU 阈值需要讨论和验证。高 IOU 阈值会将可接受的检测视为错误,而低 IOU 阈值会导致感知精度不足,报告的检测结果可能与真实情况偏差很大。

考虑到车辆的反应(如刹车、转向、减速)时间,必须给出物体与车辆之间的距离 s 来评估可靠性。城市地区常见限速 30 公里 / 小时和 50 公里 / 小时的制动距离分别为 10 米和 29 米。我们建议使用 10-20 米和 30-50 米之间的物体来评估可靠性。其他距离(如 100 米)可作为补充用于不常见情况。

精确率 P 影响车辆的乘客舒适性。精确率低的算法标记的阳性检测结果比真实值多。车辆状态会更频繁地调整,可能会进行不必要的紧急制动。召回率 R 影响行人安全。未检测到的真实值可能导致碰撞和事故。IOU 表示检测的准确性。IOU 越高,速度和距离的预测就越准确。

基于上述论点,我们定义代数可靠性 Rs:

资讯配图

其中 s=10 米、30 米,可能还有 100 米

i-P、R 和 IOU,RP=P 等。

k - 影响因子,kP + kR + kIOU = 1

代数可靠性全面描述了功能质量。不同距离的可靠性将分别表示。定义 ki 与定义 IOU 阈值类似,必须考虑舒适性和安全性之间的平衡。考虑到安全的重要性,kR 应在 Rs 中占主导地位,其次是 kP。

此外,我们定义可靠性向量 R:

资讯配图

可靠性向量 R 能够进行可视化表示。见图 2。

资讯配图

图 2. 可靠性向量的可视化。经过验证的可接受的最低可靠性要求可以在图中显示为安全面。目标点是理想功能。它们之间的体积定义为安全体积。只有可靠性向量指向该体积的行人检测算法才能被视为功能安全的


考虑到上述定义的 ki 的不均匀性,不建议通过向量的大小来表示可靠性。

其他研究人员建议使用真实值和检测结果之间的垂直和水平像素偏差来判断置信水平。在这种情况下,可以考虑偏差的方向影响,但这会使可靠性表达复杂化。

3.3 功能的动态可靠性

SSD(单次多框检测器)是当今最好的目标检测算法之一,在 512×512 图像的行人检测中,其平均精度(AP)超过 84.5%。改进的算法 FSSD 在相同输入下甚至达到 90.2%,使用单个 NVIDIA 1080Ti GPU,对于 300×300 的输入尺寸,速度达到 65.8 FPS。这样的分数对于正常的目标检测任务来说是令人印象深刻的。然而,在高自动化驾驶系统中,必须处理漏检以满足安全需求。最简单的解决方案之一是投票机制:基于 3 帧进行预测,其中至少在两帧中被标记为 tp 的物体将被视为阳性。假设 FSSD 的 90.2% 的 AP 对每次检测都有效,将其应用于 3 个独立帧,在这种情况下,最终的 AP 可以显著提高到 97.3%。

另一方面,如果没有上述高级功能(如速度估计和运动预测),行人检测本身的意义有限。这些方法属于计算机视觉中的多目标跟踪(MOT)。由于高自动化驾驶是一个高度动态的系统,对周围其他交通参与者的有效预测可以通过预测性驾驶改善安全性和舒适性。采用的标准算法是检测跟踪,其中连续帧中的检测结果通常是跟踪功能的基本输入。我们定义的行人检测还包括行人跟踪。同一物体在不同帧中的偏差会影响预测质量。

因此,我们提议验证该功能的动态可靠性。在多目标跟踪中,有两种广泛使用的指标来评估跟踪质量:CLEAR MOT 指标和 ID 分数。CLEAR MOT 侧重于检测质量,类似于统计可靠性的标准,而 ID 分数方法则专注于匹配级联。然而,在高自动化驾驶系统中,匹配级联并不是与安全相关的因素。两个不同行人的 ID 切换不会影响车辆的运动控制。因此,这两种指标都不适合动态可靠性。

资讯配图

图 3. 左图:gt 向量是物体的真实运动,t 向量是物体的跟踪运动。t 向量将被输入到其他功能中。关键帧是将估计物体运动的帧。d 向量是我们定义的用于描述跟踪质量的偏差向量。右图:将所有 gt 向量的端点移动到 P 点,交叉所有 a 向量的端点,我们看到所有预测偏差的分布。d 向量的平均值是 davg 向量


我们提议使用预测的平均偏差向量来描述预测准确性,并使用偏差的分布来描述预测精度。见图 3。

这种描述可以完美匹配传统的测量技术。davg 向量与系统误差匹配,交叉点与 M 点之间的距离可以视为随机误差。研究了自动驾驶中使用的 YOLOv2 算法的像素级偏差分布。结果表明,x(水平轴)和 y(垂直轴)像素误差在 x 和 y 像素方向上分别呈正态分布,因此可以评估 μ 和 σ。因此,动态可靠性可以表示为:

资讯配图

这个定义可以有益于为高自动化驾驶设计的安全功能。假设一种算法在行驶方向上的动态可靠性 μ 为 1 米,在横向方向上为 0 米,σ 为 1 米,物体被预测在车辆正前方 30 米处,可以得出结论,95.45%(2-σ)的情况下距离大于 29 米,99.73%(3-σ)的情况下距离大于 28 米。在这种情况下,使用 28 米进行运动控制的适用性为 99.73%。

这种分布对于其他算法尚未被证明有效。关于创建边界框的原理,我们假设类 YOLO 算法(单阶段)满足正态分布。两阶段方法的分布有待研究。即使偏差不是正态分布,相应的概率密度函数也可以表示动态可靠性,并指导安全功能的设计。

资讯配图


4. 提高与安全相关的机器学习功能的可靠性

我们提出的可靠性旨在反映准确感知驾驶环境的能力。感知越准确,车辆行驶就越安全、越舒适。因此,可靠性优化在开发中发挥着作用。考虑到感知过程,我们提出两个提高可靠性的方向,即传感和算法方面。

相机作为行人检测的主要传感器,由于计算能力有限和感光元件性能的限制,存在固有的不足,如分辨率低、色彩敏感性和动态范围有限。传感器融合是抵消单一传感器固有不足的有效方法。例如,当车辆进出隧道时,相机视线受阻,激光雷达可以感知环境。另一种广泛使用的提高功能安全的方法是冗余。额外的容错能力通常可以提高安全完整性等级。这也是解决特定阳光角度导致特定相机视线受阻的实际解决方案。

此外,诸如 LSTM(长短期记忆网络)和卡尔曼滤波器等预测算法可以提供被遮挡物体的预测位置,或者在相机视线受阻时提供预测位置。借助基于贝叶斯网络的行人行为理解,可以构建行人运动的多预测。预测将参考行人过去的位置、速度以及意图。车辆与行人之间的交互将像在现实中一样建立。


5. 结论与未来工作

在这项工作中,我们研究了随着自动驾驶的发展,安全需求的演变。我们阐述了现有标准在高自动化驾驶中应用的不足,并提出了功能可靠性的应用。为了评估和验证基于机器学习的高自动化驾驶功能的可靠性,我们在预定义的约束下提出了可靠性函数的定义,以定量描述行人检测在安全性和舒适性方面的可靠性。最后,我们指出了一些可以提高所定义可靠性的实用方法。

未来,我们将实施和验证我们提到的一些传感器融合和算法方法。我们致力于在高自动化驾驶中实现一种安全、可靠且稳健的行人检测方案。我们建议自动驾驶界和汽车行业密切参与创建验证数据集和定义高自动化驾驶中的关键参数,以加速高自动化驾驶车辆开发的标准化。


本文由豆包软件翻译,如有不当之处请参照原文
下载请扫二维码:

资讯配图

资讯配图

往期精彩

资讯配图

资讯配图

资讯配图

资讯配图

资讯配图

资讯配图
资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
安全 机器学习
more
【AI加油站】第四十部:《大规模机器学习训练工程实战手册》——从硬件选型到故障恢复的系统性指南(附下载)
解决几乎所有机器学习问题.pdf
【精选报告】普通人都能懂AI吗?阿里云发布《人人懂AI之从机器学习到大模型》(附PDF下载)
彻底改变芯片制造方式!世界首创成果:用量子机器学习制造芯片!
【AI加油站】第四十二部:《百页机器学习书》:从算法到实战的全景指南(附下载)
【自动驾驶】当机器学习遇上自动驾驶场景生成
码住这份指南:Edge AI与机器学习常用硬件类型与开发板全解析
Sebastian Raschka著作免费开放!《机器学习与AI核心30问》,新手专家皆宜
【AI加油站】第三十三部:机器学习好评榜第一《机器学习基础》(附下载)
自动驾驶中安全相关机器学习功能的可靠性定义方法
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号