一、自动驾驶两大趋势:模型数据驱动转向知识驱动、模型功能至上迈向驾乘体验优先
随着自动驾驶从单一感知任务向感知-决策-执行的综合任务转化,自动驾驶不仅对于所收集数据的模态多样性与丰富度要求提升,对于模型本身的思考、理解能力要求也愈发提高。仅仅依靠大量收集自动驾驶数据训练的模型(数据驱动)只能是第三人称智能,即从旁观者角度学习、模仿人类行为却无法具备自我思考能力。
汽车领域智能化的最终目标是实现车端的通用人工智能,而非简单的汽车电子软件智能化,这要求汽车具备第一人称智能,即依靠自身思考能力探索环境、获取一般知识,而不是执行预先定义的人类规则或从收集的数据中描绘抽象特征,这使得从数据驱动范式向知识驱动范式的转变成为自动驾驶进化的未来趋势,而 LLM 等语言类大模型的成功引入则奠定了范式转变的技术基础。
数据驱动转化为知识驱动是自动驾驶由功能实现迈向体验升级的底层技术逻辑。知识驱动范式并非完全跳脱数据驱动方法,而是在原有基础上增加了知识框架设计,知识驱动本身也需要不断从数据中进行总结提炼以获得涌现能力,数据驱动向知识驱动转化的过程即是焦点从自驾基本功能实现向人车交互性、极端场景通过性等体验提升转化的过程。
知识驱动的方法更为关注模型类人性、泛化性与通识能力的实现,使汽车不再是单纯的驾驶工具而是成为一个能够与用户进行沟通,能理解用户意图甚至提供情绪价值的物理智能体。在不久的将来,不同企业自动驾驶的模型性能领先、功能领先将转化为体验领先并重塑汽车行业产品生态,知识驱动范式的智能化模型也将重新定义自动驾驶,行业预计将迎来智能化“iphone 4 时刻”并真正开启电动智能化下半场角逐。
传统规则驱动的模块化算法多衍生自机器人算法,该模式下通常将自动驾驶功能拆分为独立模块,这些模块通常包括地图构建、环境感知、目标检测、定位、决策规划、车辆控制等,每个模块有自己独立的算法和处理流程,不同模块间采用人为定义的接口进行连接,各个模块之间进行相对独立的开发和测试,最后将它们集成实现自动驾驶功能。
模块化算法很大程度上依赖人工定义的规则和先验知识,其核心优势在于模型的可解释性,在出现系统问题或部署失败时容易调试。例如丰田 TSS、百度 Apollo 3 等早期模型都是模块化算法代表。
传统的规则式模块化算法存在固有问题,核心缺陷在于无法Scaling:1)模块之间独立研发与人为定义接口导致信息传递损失,无法达到全局最优,且最终结果无法反向传播以优化模型性能;2)基于人为定义的规则驱动,陌生环境鲁棒性差,长尾问题难以解决;3)模块间的累积误差会影响最终结果;4)成本问题,实现一个较为稳定的传统规则式自驾系统约需要数万条各类人工输入规则,而一个无限接近人类司机的自动驾驶系统等效于数亿条规则,在实际工程落地中几乎是不可能事件。
数据驱动方法开始在部分子模块应用,但整体仍未跳脱规则式范畴。由于传统规则算法存在诸多问题,2019 年以后特斯拉逐步在子模块中引入神经网络算法,逐步实现感知、规控模块模型化并引起诸多自驾公司效仿,形成了“两段式”、“多段式”等多种“伪端到端”模型。
例如此时典型的两段式模型中感知模块采用多传感器融合的BEV 技术实现模块级端到端,并应用 transformer 等方法提升感知精度;规划模块则被集成在另一个神经网络中。该阶段处于规则驱动到端到端模型数据驱动的中间态,一方面该阶段感知、决策等子模块都由基于数据驱动的方法实现;另一方面,从接口定义和联合优化角度,此时两个模块间的接口仍表现为人为定义的显式形式,同时各模块的优化仍然局限在模块内部,可以分别做到局部最优,但难以实现全局最优,因此从严格定义看,该阶段仍属于基于规则的模块化算法。
三、端到端模型:自动驾驶从数据驱动向知识驱动演进
1、数据驱动的端到端模型面临数据瓶颈
端到端是一种模型的组织框架而非具体的技术范式,其相对于模块化的模型组织形式如同“连续”相较于“离散”的区别,或者汽车分布式架构向域集中再到中央集中架构升级的过程。具体而言,端到端模型可以被定义为一种基于学习的、完全可微分的算法思路,它将原始传感器数据作为输入,并生成轨迹规划或低级控制动作作为输出,其中不包含任何人为设计的模块或接口。
需要指出的是:1)自动驾驶端到端模型可以依赖不同的具体技术方法实现,即可以利用传统的神经网络架构(数据驱动式的概率输出)、也可以利用VLA方案(知识驱动式的理解能力输出)、或者将二者组成双系统(高维思考+低维执行)、或利用世界模型方案。不同端到端实现方案会给模型构建与性能发挥、芯片等硬件要求带来不同影响。2)端到端模型并不一定是黑盒模式,它可以像规则算法一样进行模块化设计并加入大语言模型以增强模型可解释性和分部优化,其核心在于不同模块间传播的是隐式特征而非具体输出结果,不同模块间可以联合优化以实现全局最优性能(信息损失最小化与联合优化)。
数据驱动的本质是模型进行模仿学习,其“穷举+归纳”的方法使模型发展面临数据瓶颈。数据驱动范式即是从大量具体数据中抽象出统计规律进行学习和决策,模型通过对大量标注数据进行监督训练获得相对的泛化能力,强调“数据即知识”,但模型本身基本不具备推理能力,想要获得更好的模型能力,即需要穷举更多的场景以获得数据养料,数据驱动范式的具体弊端包括:
1)数据量与数据质量要求较高,且难以穷举所有长尾场景。数据数量方面,以特斯拉为例,其 FSD 训练依赖于上千万个视频片段,累计时长达到几万小时,但起初在中国落地过程中由于本地数据量不足模型性能发挥仍然受到了限制,可能原因之一即是数据驱动方法无法穷举所有长尾场景导致模型零样本泛化能力较差;数据质量方面,自驾模型的质量很大程度上取决于所使用的训练数据的类型、多样性和高质量,但符合“老司机”标准的可模仿视频片段和极端场景片段并不易得。
2)模仿学习存在因果混淆、数据分布偏移、专家依赖性等问题。因果混淆是指模型学习到数据间的关联性而非确定正确的因果关系,例如在十字路口停车,不能确定是因为红绿灯停车还是因为旁边的车减速而停车,模型无法自主理清逻辑;数据分布偏移是指训练数据与实际环境之间的概率分布不同时,模型性能可能急剧下降,即极端场景泛化能力有限,容易造成模型下限极低;
3)专家依赖性。由于当前模仿学习主要采取行为克隆模式,这类学习方法下专家数据质量直接决定模型性能上限,模型通过模仿学习无法超越专家水平。
模仿学习导致因果混淆
资料来源:《End-to-end Autonomous Driving: Challenges andFrontiers》_Li Chen 等,华源证券研究所,思瀚
2、多模态大语言模型引入是端到端模型实现知识驱动的关键
大语言模型引入奠定了知识驱动技术基础。近年来,如GPT-4 等大语言模型(LLMs)在语义理解、答案生成和处理复杂任务方面展现出卓越的能力,其与多种编码器集成后形成的多模态模型实现了文本、图像、视频、点云等信息的统一特征空间映射,显著增强了模型的泛化能力,使其能够以零样本或少样本的方式快速适应新场景。
而将多模态大语言模型与传统端到端模型进行有机结合形成 VLA 模型,能够凭借大语言模型丰富的知识库、强大情景理解能力更轻松地学习复杂的驾驶行为,强调“理解即知识”,使得解决自动驾驶的长尾问题、规划决策以及为决策提供直观的解释成为可能,进而推动端到端模型由数据驱动范式向知识驱动范式的升级。
多模态性是当前自动驾驶 VLA 模型的典型特征。大语言模型(LLM)在大多数自然语言处理(NLP)任务上具有极佳推理能力,但在视觉处理上(例如理解3D空间)表现较差;同时例如大视觉模型(LVMs)可以轻易地处理图像与视频信息,但推理能力落后。
因此将LLM与其他模态信息(如图像、视频、音频等)结合形成多模态大语言模型(MLLMS,例如将LLM 与视觉编码器集成形成 VLM)使得自动驾驶系统能像人类一样理解多模态信息,甚至在具身领域还能依靠机器人触觉、嗅觉等模态信息进一步理解物理世界,同时还能依赖LLM的能力进行深度思考与推理并做出相应决策。
自动驾驶领域 VLA 模型即是一类以大语言模型为基础的多模态模型,它主要关注自动驾驶中的视觉、语言、动作三种模态信息及其之间的语义连接,其多模态属性天然与自动驾驶的输入输出、人类驾驶行为的多模态性吻合,使之成为当前自动驾驶主流基座模型。常见 MLLMs 的架构组成与训练:常见的 MLLMs 架构一般可分为4 个模块,即预训练的多模态编码器、对齐模块、预训练的 LLM、解码器(生成器)。
以理想VLA架构(详见图表25)为例,其空间智能部分集成了多模态编码器和对齐模块,使用一个3DEnconder 编码图像和激光雷达信息并输出 3D 特征,一个普通 Encoder 编码位置、导航信息等文字信息,一个 3D 投影仪(对齐模块)将编码器信息投射对齐至语言空间;语言智能部分为从零训练的Mind GPT 语言大模型,用于理解场景和输出高层次决策规划;
行为智能部分为一个扩散模型解码器,用于将语言模块输出的高层次指令(视作语言 prompt)精细化为低层次的具体车端执行动作,完成“抽象到具体”的映射。整体而言,MLLMs 模型的训练过程主要包括模型预训练、垂域数据微调、对齐调优(例如自动驾驶中的人类行为对齐)、模型强化学习等环节。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。



·官方网站: Chinasihan.com