VLA 模型是自动驾驶端到端架构的演进方向

视觉 - 语言 - 动作模型 (VLA) 是一种多模态的机器学习模型，由 VLM 模型演变而来，它结合了视觉､语言和动作三种能力，旨在实现从感知输入直接映射到控制输出的完整闭环能力，其不仅关注环境感知，也关注规划与控制问题｡VLA 模型最初被开发用于解决具身智能中的指令跟随任务，其后这一理念快速应用于自动驾驶领域，相较于 “VLM+E2E” 的中间态架构，VLA 深度整合了空间感知､逻辑推理､行为规划等多模态信息进行端到端训练，从根本上解决了模型信息传递损耗和不同模型联合优化训练问题，显著提升了模型极端环境下泛化能力和决策能力，推动自动驾驶从端到端模型 “自驾功能实现” 迈向 VLA 模型 “交互性､类人性､泛化性体验优先”｡

一般而言，VLA 模型架构具有三个核心组成：多模态编码器 (动作､文本､图像等)､大语言模型用以接收信息和进行推理､解码器用于输出轨迹和动作｡但也有部分模型只含有两个模块，如 Open VLA 使用 LLM 主干直接输出 action 指令｡

VLA 模型具有强大通用能力，具备成为具身智能基础模型的潜力｡VLA 通用性体现在其以多模态大语言模型为底座，具备 “理解万物” 的能力，针对不同的使用场景和任务，理论上只需要使用特定数据对模型进行大规模预训练并适配相应的解码模块，即能输出相应的动作指令，相当于给一个足够聪明的大脑匹配不同的躯干和感知器官以适应不同的任务需求｡其高度的场景推理能力和泛化能力让模型在不同的应用场景中都能表现出色，展现出超越自动驾驶乃至机器人等单独垂域应用的潜力，有望成为广义具身智能基础模型范式｡

自动驾驶 VLA 模型构建与工程部署面临的主要问题及解决方法

自动驾驶 VLA 模型更多是一个工程化而非技术性问题｡实现 VLA 模型的工程落地至少需要三个前提：即一个足够聪明的模型 (大脑) 在一个足够拟真的空间中 (仿真环境) 进行训练，并利用足够优秀的映射对齐算法实现数据､模型能力的 real2sim､sim2real 迁移｡在自动驾驶领域，主要面临的是模型与环境问题，模型层面突出表现为模型的多模态性､3D 空间感知能力､计算速度与计算开销平衡､长时序记忆能力等问题；环境问题主要是如何构建优秀的仿真环境｡虽然现有的车端 VLA 技术路线尚未收敛且工程部署较少，但我们认为由于汽车面临的结构化场景､任务单一､汽车自由度低且结构较为统一､数据和车队保有量高､各种数据迁移方式迭代完善､算力充足等因素，车端 VLA 技术路线已经较为明朗，其更多是一个工程化问题而非技术性问题，有望支撑汽车由 L2 + 走向 L3 甚至 L4 级自动驾驶，目前不同厂商都进行了模型方案在理论层面的改进，国内元戎启行､理想､小米､小鹏等已有了相关进展，其中小鹏 VLA-OL､理想 Mind VLA 工程化落地进展较快，预计年内将实现车端部署｡

3D GS 或是车端实时获取良好 3D 中间特征的途径

多段式 VLA 模型云端训练和端侧部署都需要良好的 3D 中间特征｡自动驾驶中间特征指用于连接感知层与推理决策层的抽象表示，是由原始传感器数据经过处理后的高层次特征，通常包含场景障碍物､道路语义､行人等静态信息，速度方向等动态信息，可以理解为包含自车周围所有隐式､显示信息的统一场景表达，获取良好的 3D 中间特征，无论是在端侧服务下游如路径规划､行为预测等驾驶任务，还是云端构建良好的训练环境供模型迭代训练都有重要意义｡传统的端侧构建中间表达的方式有高精地图､BEV 鸟瞰图､占用网络､实时高精地图等方式，云端一般为 NeRF 场景重建算法 + 素材库 + 游戏引擎重建环境，但传统的方法或多或少皆有缺陷，如端侧通过稀疏查询 (如实例框､地图元素) 描述周围场景无法精细捕捉 3D 环境的细节导致决策过程信息不足､OCC 算法将场景表示为 3D 占用以获取更全面的细节，但稠密计算导致计算开销较大挤压了推理决策的资源，云端也存在重建速度缓慢､重建真实性､丰富度不足等缺陷｡而 3D GS 作为一种全面且稀疏的中间特征获取方式，在场景精细度和构建效率方面取得了较好的权衡效果｡

3D GS 是一种基于高斯分布的点云表示与渲染技术，有效权衡了场景重建真实性与重建效率的矛盾｡3D GS 的重建过程可理解为：1) 将多视角图像或点云数据 (如 LiDAR) 经过运动结构恢复 (Sfm) 处理生成稀疏点云；2) 将点云转化为 3D 高斯点，并添加位置､颜色､形状分布､不透明度等信息形成场景的初步表示；3) 通过可微分渲染技术和自适应密度控制进行优化，最小化渲染图像和真实场景差异；4) 最后利用 GPU 生成最终图像并做到实时渲染｡3D GS 的优异性能使其能够应用于自动驾驶仿真环境重建､实时渲染建图､动态障碍物检测跟踪等任务｡与传统场景重建技术 NeRF 相比，3D GS 具有计算效率较高､自监督､渲染实时性等优势，为端侧应用提供可能｡1) 渲染实时性高，3D GS 能通过 GPU 并行化实现实时渲染 (> 30 FPS ), 而 NeRF 渲染一帧需数秒至数分钟，相较之下 NeRF 更像一位精细的画家，注重写实，而 3D GS 则是一位泼墨艺术家，注重写意，泼洒的速度会显著快于精细绘画；2) 数据需求较少，仅需少量多视角图像即可生成高保真模型，存储空间需求比 NeRF 减少 50% 以上；3) 动态适应性，3D GS 可通过调整高斯分布的位置直接建模动态物体 (如移动车辆), 而 NeRF 需重新训练或引入额外动态建模模块，效率较低；4) 自监督学习，3D GS 可利用原图 RGB 信息进行自监督学习，使重建模型利用海量数据进行自我训练成为可能｡

强化长时序记忆能力将提升 VLA 模型长程任务规划与解决能力

缺乏长时序记忆机制导致模型性能下降｡长时序问题是指大语言模型的输入窗口能够保留的信息有限，难以关联长时间范围内的内容，因此 VLA 模型由于主干语言模块缺乏长时序记忆机制，导致模型语义跟随性较差，难以处理需多步规划的任务和行车过程中的长时序遮挡问题，在长流程任务中易出现步骤遗漏或逻辑混乱，导致驾驶行为停滞或无法正确识别目标的现象｡

LLM 模型实现长时序记忆的技术难点在于：1) Transformer 架构固有缺陷，标准 Self-Attention 的计算复杂度为 O (N²), 其中 N 为序列长度，导致实际模型能够同时处理的信息有限，造成历史信息丢失；2) 即使在同一文本窗口内，也会面临记忆稀释问题，即在长文本输入中，早期的信息可能被赋予较低的注意力分数而被 “遗忘”;3) 长时记忆不仅要存储过去的信息，还需要动态地更新和清理 “过时” 或 “无关” 的内容，对模型的架构设计和训练提出了更高的要求；4) 单纯增加输入窗口长度需要更大的显存和更高的计算成本，对于车端模型而言并不经济｡

针对上述问题，业界提出了多样化的解决办法，诸如拓展文本窗口､缓存与检索机制､生成段落摘要､动态记忆模块､稀疏注意力等｡我们认为 “稀疏注意力机制 + 动态记忆模块” 组合或是较好的车端方案，使模型能在 “记忆能力” 和 “大脑容量” 上获得提升：1) 稀疏注意力机制通过选择性关注输入序列中的关键部分来降低计算复杂度和内存消耗，尤其适用于处理长序列数据 (如文本､图像､音频), 其核心原理是通过引入稀疏连接规则，限制每个查询 (query) 仅与部分键 (key) 交互，而非全局计算，从而将 Transformer 计算复杂度从 O (N ²) 降低到接近线性｡例如谷歌 Big Bird 模型通过引入稀疏注意力机制展现了较好的性能，使模型能够处理的序列长度较传统模型提升至约 8 倍，同时显著减少了 GPU/TPU 的内存占用，提高了模型计算效率，国内理想汽车 Mind VLA 架构中也引入了相似的处理方法｡2) 动态记忆模块通过显示存储､动态更新与历史信息检索改善传统模型的记忆能力，记忆模块相当于给模型外挂一个存储 U 盘，同时通过学习的方式，模块还能自主识别重要信息以进行选择性存储，并根据输入动态地调整存储的记忆数据，小米 QT-Former､理想早期双系统架构中的记忆模块都是该方法的代表｡

优化模型架构与推理机制可以提高端侧计算效率

端侧模型需在较小参数规模前提下尽可能提高计算效率，“稀疏化” 是模型设计的关键｡一般而言，模型参数与模型性能正相关，但由于汽车端侧芯片算力不足､带宽较低等因素以及端侧运行实时性需求，云端大模型在端侧部署时需要缩小参数规模和尽可能提升计算效率｡除去常见的模型蒸馏､裁剪等缩小参数规模的方式外，模型量化的压缩方式，模型架构优化､推理机制改善等效率提升方式对于端侧部署也同样重要，本段以理想双系统和 Mind VLA 架构的相关技术为例探讨该过程｡

模型量化可以降低模型内存空间占用并提升推理速度｡模型量化核心思想是降低运算精度，即将模型中的浮点数 (通常是 FP32) 表示的权重和激活值转换为低精度整数 (如 INT8､INT4) 或半精度浮点数 (FP16), 从而实现模型压缩和加速的技术，其主要具有两大优势：1) 降低模型内存空间占用，如将 FP32 模型量化为 INT8 模型，理论上模型的存储空间需求可以减少为原来的四分之一；2) 加速推理，低精度计算通常具有更高的计算吞吐量，目前许多硬件平台 (如 CPU､GPU) 对低精度整数运算有专门优化，可以实现比高精度浮点运算更高的并行度和更低计算时延｡量化后更小的模型规模和低精度计算使模型端侧部署算力消耗更小，例如理想 LLM 模型 GPTQ 技术 (后训练量化) 大幅提升了模型计算效率，使模型时延从 4.1 秒大幅降低至 1.9 秒，输出频率从 0.24Hz 上升至 0.52Hz｡

MOE 架构在保持算力消耗相对稳定的同时实现模型扩容，进而提高模型性能｡混合专家模型 (MOE) 是一种 “分而治之” 的模型策略，核心思想在于将一个大的任务分拆交由对应专家 (子模型) 处理｡例如在 Transformer 架构中将前馈网络层 (FNN) 替换为一个 MOE 层，MOE 层通常由多个专家模型和一个门控网络 (一般是 router) 构成，当模型需要解决任务时由学习后的门控网络将任务输送给对应专家，从而实现在整体模型扩容的同时 (更多的专家网络加入) 其整体的计算消耗与传统稠密计算相当 (同时间仅有部分专家被激活，相当于一种稀疏化机制)｡例如理想的 Mind GPT 模型中引入了 8 位 “专家” 做相关计算，每个专家单独训练可以负责其擅长的部分，如图像分割､处理输入的语音指令､动作规划等｡

推理效率提升包括稀疏注意力机制 (见前文)､投机推理 + 并行解码等方法｡由于 LLM 模型的并行计算能力，可以近似理解其处理一个 token 和一批 token 的效率一致，在此前提下，投机推理机制通过引入一个或多个预训练的､参数较小的模型 (draft model) 预测生成多个候选 token, 然后再利用标准模型对候选词进行批量验证，从而避免了标准模型的重复调用以提升推理效率，该方式的难点在于如何提高小模型采样准确性以避免标准模型验证次数较多；并行解码主要指在 transformer 中加入两种推理模型，如规划决策实时性要求较高的 action token 采用双向注意力机制，通过单次计算即可输出所有信息；对于时效要求较低的语言 token (如对自车行为的解释) 则采用因果注意力机制逐字输出，投机推理 + 并行解码的方法对模型输入和输出两端计算效率提升都起到一定作用｡

利用世界模型构建云端仿真环境是模型闭环测试､强化学习的关键
构建高保真的仿真环境有利于 VLA 模型实现闭环测试验证｡自动驾驶模型测评分为开环评估和闭环评估两类，二者核心区别在于模型输出是否有反馈与循环｡目前大多数模型采用的公开数据集开环测试为一个单项流程，即传感器信息输入￫算法处理￫输出结果，最终结果不会产生后续反馈，一般基于预录制的数据对模型某些基础功能 (如感知功能) 进行测试，适用于初步验证；闭环测试则是一个循环流程，即传感器信息输入￫算法处理￫输出结果￫执行动作和车辆反馈￫将反馈作为下一时刻新的信息输入，闭环测试涉及自车与整个外部环境的交互验证､实时的数据处理和决策，更能体现模型在整个行驶过程中的规划决策性能｡初步的开环测评与模型实际落地需要的交互性验证､真实测试环境等要求并不匹配，而直接进行大规模实车闭环验证与强化学习的测评成本和安全性要求难以满足，因此构建逼真的仿真测试环境成为 VLA 模型闭环的关键｡

优秀的仿真模拟环境可以使车端 VLA 模型进行强化学习以达到甚至超越人类驾驶水平｡传统的模仿学习中，行为克隆会学习从驾驶环境状态映射到人类专家采取的驾驶动作，核心目标是让模型通过监督学习的方式复制专家行为并逐步改善模型性能，但模仿学习问题在于模型上限较低 (严重依赖专家数据) 和泛化能力差 (corner case 难以处理)｡强化学习旨在让智能体与环境不断交互，通过尝试不同的行动来最大化累积的奖励，在自动驾驶领域通过强化学习可以使车辆感知､规控能力进一步优化以达到甚至超越人类专家水平｡强化学习方案主要包含智能体､交互环境､奖励函数､动作策略等内容，出于与闭环验证同样的原因，优秀的仿真模拟器对于实现模型强化学习至关重要 (提供 “真实” 交互环境)｡我们认为，未来在具有一个优秀仿真模拟器的基础上，行为克隆 (初步训练端到端模型)+ 逆强化学习 (从专家数据中初始化奖励函数)+ 强化学习 (通过与环境交互改善模型和奖励函数) 方案或将成为自动驾驶模型训练主流方案｡

仿真环境构建方法多样，世界模型是未来潜力方向｡目前学界对于世界模型没有明确的定义，我们认为通用的世界模型应具有几个特点：1) 能够认识物理世界的表象并理解背后的运行规律 (因果､物理规律等), 并能够基于对物理世界的认识来预测世界的演化；2) 能够进行反事实推理，即对于数据中没见过的决策也能推测出结果，具备泛化到样本数据以外的能力；3) 具备基于长时记忆进行自我演进的能力｡自动驾驶领域的世界模型即利用历史场景观测信息加上预设条件预测未来智能驾驶场景变化 (静态场景､动态交互的变化) 和自车响应的模型，其核心任务有三大类：1) 生成未来的物理世界 (场景理解､运动预测､场景仿真);2) 生成智能体的场景决策与动作规划 (决策规划);3) 将二者合二为一并增加虚拟场景中智能体数量，让智能体之间产生交互从而从单一的物理模拟环境变为交互性的交通场景物理世界 (端到端驾驶)｡需要指出的是，由于当前世界模型生成方案尚不成熟，我们认为当前自动驾驶仿真环境的构建中，基于部分真实数据重建 + 世界模型生成或是工程部署可行性较大的方案｡

目前世界模型在业界的应用主要是场景生成，即作为数据生成器进行仿真环境构建，其可以看作 VLM 模型的逆向工程，构建方案本质上是 Prompt 控制 + 视频场景生成｡

从视频生成的具体步骤，世界模型场景构建的步骤主要可分为：1) 场景初始化，即收集真实的多模态数据并对数据进行标注以形成真实数据的结构化表示；2) 控制条件经编码器输入并生成带噪潜在空间表示；3) 扩散模型训练与结果输出；4) 对生成场景进行优化和后处理｡生成式世界模型方案中控制条件的获取是其中的关键，因为生成式世界模型依赖控制条件 (初始帧､相机轨迹､动静态结构化信息) 来保证生成场景的环境合理性､资产可控性､物理一致性以及提升渲染效率，这些条件本质上是将人类先验知识注入生成过程，弥补纯数据驱动方法的不足｡

从视频生成模型选择，主要有对抗式生成 (GAN)､Transformer 回归生成､扩散模型等不同技术路线，其中扩散模型相较于其余几种模型具备生成质量高且细节丰富､训练稳定性较强､生成结果多样､生成过程可控等诸多优点，成为当前生成式方案的主流｡

从视频生成方向角度，当前的视频生成方向主要有三个：1) 更多视角､更高分辨率，如华为 Magic Drive DiT 方案；2) 更长时间，如商汤 Infinity Drive 模型能够生成超过 2 分钟的片段；3) 高保真､时空一致的 3D 渲染，例如理想《Drive Dreamer 4D》和《Recon Dreamer》, 未来融合以上三种能力是世界模型视频生成发展方向｡

从视频生成优势角度，相较于通常的重建或生成方案，世界模型方案至少具备三项优势：1) 摆脱对于特定的､分布受限的数据来源的依赖，能够渲染复杂操作并保持图像的时空连贯性；2) 基于世界模型集成的物理引擎对物理规律的认知，生成的仿真环境除了解决 Vision Gap, 还具备物理交互属性，为方案增广至广义具身智能 (如机器人领域) 提供可能；3) 生成方案实现的场景灵活多样，且生成成本较低｡

以理想汽车世界模型相关论文和方案为例，探讨世界模型在自动驾驶领域场景生成方向的落地进展｡从整体思路看，理想汽车云端场景构建遵循重建 + 世界模型生成的思路并发表了 9 篇相关工作论文，其中 2 篇分别介绍 3D GS 的重建及其改进方法，其余 7 篇为生成式世界模型相关工作，整体而言其生成方案大致有以下趋势:

初始场景不断完善｡从最初 Dive､DriveDreamer4D 方案的图像信息到后续 DrivingSphere､GeoDrive 方案中占用网络､点云信息引入，方案从单纯 RGB 信息到 3D 点云结构渲染的 RGB 图像､从静态场景到动态目标､从主要目标到树枝､房屋等细节再到潜在扩散模型对细节的补足，对于初始场景的刻画更加丰富饱满｡初始场景 (布局､光照､几何结构等) 是后续生成渲然的基础，愈加完善的初始场景可以避免生成完全随机，确保场景生成符合基本物理逻辑也为后续的场景交互编辑提供了更好的基础；

生成控制条件升维｡方案的控制条件从最初二维道路结构､相机位姿､车辆轨迹等静态信息向场景 3D 点云､占用网络等立体结构再向车辆可控运动等动态信息，最后升级到利用视频输入作为模型生成的指导，利用 3D 渲染､动态信息替代数值控制信号｡愈加丰富的控制信息一方面能够显著提升生成场景的真实性，另一方面也为精确的场景控制提供入口，更便于闭环测验中的场景编辑｡

更为重视闭环反馈机制构建，实现场景实时编辑与模型训练协同规划｡在《Driving Sphere》论文中通过智能体协调模块引入，首次实现了自驾模型与环境交互的闭环反馈机制；GeoDrive 模型更进一步，首次在驾驶世界模型中实现场景实时编辑与 VLA 协同规划｡

除以上模型构建的整体趋势外，理想的生成式世界模型还可按实际应用方向归类，我们总结如下：一是作为数据机器用以生成简单的环境数据以弥补真实重建数据的不足，是较基础的数据生成模型｡例如 Dive 模型关注视频数据生成，其利用原始 BEV 构图的 Road Sketch (道路结构) 和 Layout Entries (布局条目) 进行多视图视频生成；OLiDM 模型则主要解决激光雷达数据缺乏问题，根据文本描述和 3D 边界框进行从前景目标到环境背景的渐进式生成，并且对生成的前景目标进行初步标注并利用 OSA 模块进行目标 - 空间语义对齐 (例如解决 1 毫米像素空间对应 50m 现实距离的不合理问题), 解决了自动驾驶中 LiDAR 数据规模小､标注难､场景多样性不足等问题｡

二是在视频生成的基础上，进行大范围､多视角､高保真的场景渲染｡理想在《DriveDreamer4D 》和《Recon Dreamer 》两篇论文中提出了 NTGM+CDTS 和 DriveRestorer+PDUS 两个技术集，差异核心在于 DriveDreamer4D 方案使用公开的世界模型，且在复杂渲染中表现还不尽人意；而 Recon Dreamer 方案中的 Drive Restorer 实际上是一个经过微调的世界模型，并利用 PDUS 方法使得模型在复杂渲染 (如多车道变换) 中的性能更强｡

DriveDreamer4D 模型主要利用世界模型解决 NeRF 和 3D GS 等重建方案的训练数据依赖性问题，即利用先验世界模型作为数据机器来合成新颖的轨迹视频､利用结构化条件来控制要素的时空一致性以增强 4D 驾驶场景表示｡具体而言，DriveDreamer4D 使用轨迹生成模块 (NTGM) 调整原始轨迹动作 (如转向角度和速度) 以生成新的轨迹；新轨迹生成以后即可获取新轨迹视角下的道路结构､3D 边界框等结构性信息；最后将结构化信息､新轨迹初始帧､文本控制信息等输入到世界模型以生成跟随新轨迹的视频；除数据生成外，DriveDreamer4D 也关注生成数据与真实数据的对齐问题，即利用 CDTS 在每个时间步上利用提取的结构化信息作为约束，将真实数据与生成数据进行对齐以减轻 4D GS 训练中的数据差异，具体表现为消除最终生成视频中的 “鬼影”､“重影” 现象｡

Recon Dreamer 框架通过引入 Drive Restorer 模型和 PDUS 策略来解决大范围机动下的 “鬼影” 问题，本质是经过自动驾驶数据微调后世界模型方案能力的进一步提升｡Drive Restorer 实质上是一个扩散生成模型，理想利用未充分训练的重建模型沿自车原始轨迹渲染低质量视频并与真实视频对比形成渲染恢复数据集，以真实视频数据为监督训练 Drive Restorer 恢复渲染视频中的鬼影，并且为了增强模型能力，还对天空､图像边界等重点区域进行了掩码操作｡PDUS 是一种渐进式数据更新策略，其作用类似于自驾模型的动态记忆模块，即在新轨迹生成过程中对于初始的渲染恢复数据集进行动态､分部的更新，再由 Drive Restorer 处理得到新轨迹视频，以此迭代直到模型收敛并最终提升模型在大范围机动复杂条件下的场景生成能力 (即将长距离生成分解为逐步更新生成问题)｡

三是进一步提升对初始化场景的精细刻画与场景编辑能力｡如前所述，初始化场景的精细刻画对于后续视频生成具有基础性作用，《DrivingSphere》中通过 BEV 条件扩散模型 OccDreamer 生成城市级静态场景，结合动态交通参与者的时空位置管理，能够构建包含静态背景和动态对象的精细化 4D 世界表示；GeoDrive 模型则以单帧 RGB 图像为输入，借助 MonST3R 网络精准估计点云和相机位姿，并结合用户提供的轨迹信息构建具有三维一致性的条件序列，确保场景结构连贯真实｡同时得益于场景刻画中点云信息的引入，使得部分生成模型可以在多帧点云聚合期间调整物体边界框的属性，以提供经修改的 LiDAR 条件用于视频扩散模型，而无需对每个物体分别建模且逐场景优化，即实现场景动态编辑功能，动态场景编辑的实现奠定了模型高效训练闭环反馈的基础，例如 GeoDrive 模型首次在驾驶世界模型中实现实时场景编辑与 VLA 协同规划｡

2.3. 自动驾驶典型 VLA 架构

Waymo EMMA: 开创性的端到端多模态自动驾驶模型

作为早期开创性模型，EMMA 模型架构较为简单，主要由编码器 + 大语言模型构成｡感知部分，EMMA 模型开创性的同时处理文本 (导航指令､自车历史状态)､图像 (摄像头视频感知) 等多模态输入，并利用视觉 - 语言框架将所有的输入和输出表示为普通文本，将驾驶任务转化为视觉问答 (VQA) 问题，充分利用其 Gemini 大语言模型储备的大量知识，更好的理解驾驶任务中的动态变化；推理输出方面，为了增强模型的推理能力使之更符合自驾需求，EMMA 对原有大语言模型进行了微调，通过混合训练来实现更多自驾能力，具体而言，其将感知任务拆分为空间推理､道路图估计､场景理解等多个子任务，使微调的 LLM 模型能够更好的生成各种运动规划和驾驶控制信号｡

EMMA 框架具有三大特性｡1) EMMA 将所有的输入和输出表示为自然语言文本形式，所有任务共享统一文本表示空间，可以最大限度的调用语言模型的知识储备并提供了将其余驾驶任务继续融入系统的拓展性；2) 引入 CoT 增强模型的可解释性，EMMA 将 CoT 融入到轨迹生成中，要求模型在预测时阐明相关理由，例如将推理过程结构化为场景描述､关键物体描述､关键物体行为描述､驾驶决策输出四个子任务，数据集测试结果显示，引入 CoT 的模型相较于基准模型整体性能提升了 6.7%, 在驾驶决策和关键物体识别的能力上分别提升 3.0% 和 1.5%;3) 自监督模型，模型训练唯一需要监督数据的是自车未来位置，其余数据不需要专门人工标签，提高了数据来源的可拓展性｡

EMMA 在公开数据集的开环测试取得了较好效果｡EMMA 采用最小尺寸基座模型 Gemini 1.0 Nano-1 分别在 WOMD 和 nuscens 数据集上进行了端到端轨迹预测的测试｡在 WOMD 数据集中，经过内部预训练的 EMMA + 模型在短时间窗口上的 ADE (平均位移误差) 性能超越了基准模型，但在较长时间窗口表现较差，主要是 EMMA 只有摄像头输入，基准模型结合了激光雷达，深度感知能力更好；在 nuscens 数据集中，自监督的 EMMA + 取得了 SOTA 效果，比参与测评的监督基准模型平均性能提高 6.4%, 比自监督的基准模型性能提高 17.1%｡

作为自动驾驶 VLA 的初步尝试，EMMA 距离工程部署尚有距离：1) 模型仅能处理有限帧数，难以捕获驾驶任务所需的长时间依赖关系，自动驾驶性能较差；2) 依赖预训练的多模态模型，但该模型未集成与点云相关的编码器，3D 空间感知和多模态能力受到限制；3) 当前测评基于公共数据集上的开环测试，模型闭环性能不清晰，距离工程部署尚有距离；4) 参数规模庞大的语言模型在车端部署对端侧芯片算力､带宽带来挑战，车端推理实时性不足，需要在模型大小､推理质量､推理效率之间实现平衡｡

Open Drive VLA 框架的贡献在于模型 3D 环境感知和交互
Open Drive VLA 是专为自动驾驶设计的端到端 VLA 模型，主要包含一个预训练的视觉编码器和一个开源 VLM 模型｡模型首先利用预训练的编码器从多视图图像中提取中间特征；然后分层视觉语言特征对齐模块将图像 token 对齐到文本域；其次在 VLM 推理空间中进行车辆 - 环境 - 自车交互推理和输出高层次的驾驶指令，最后根据高层次指令给出自车的未来轨迹｡架构的创新在于 1) 引入以视觉为中心的查询模块和分层视觉 - 语言特征对齐模块，提升模型 3D 感知能力；2) 引入条件车辆运动预测任务，提升自车复杂环境下交互能力｡

3D 环境感知与对齐：传统的 VLM 模型通常依赖于 2D 视觉编码器，视觉 token 的选择和注意力权重通过语言监督间接引导，模型缺乏足够的 3D 空间感知能力会造成严重的多模态输出幻觉 (即语言模型的反应与图像输入内容不一致)｡针对此问题，Open Drive VLA 在感知环节采用了以视觉为中心的查询模块，使模型重点关注与驾驶相关的物体和 3D 地图信息，具体而言在模型获得 BEV 特征表示后，会用三个视觉查询模块 (Track､Map､Scence) 以空间定位的方式捕捉动态车辆行为和静态地图结构，以获得 3D 中间特征表示｡并利用分层视觉 - 语言对齐机制弥补不同空间的模态差距，即指针对三个特定的查询模块引入三个特定的可训练投影机制进行视觉嵌入，使得不同模块的视觉信息都有详细的语言描述与之对应，达到对齐视觉和语言模态的效果，例如对于 Map 信息，以真实标注数据训练的文本转化机制可以将车道分隔线､人行横道和道路边界等地图元素都转化为描述性文本｡

轨迹生成与环境交互：Open Drive VLA 引入了条件车辆运动预测任务，作为 3D 车辆环境 - 自车交互建模的代理任务，使模型能够学习不同物体在空间中的运动模式，即模型能够在给定场景描述､地图结构以及自车状态后，在推理空间中直接预测每个实体相对于自车的未来位移，并给出自车在此条件下的未来运动轨迹预测｡该任务的引入增强了模型轨迹生成能力，并改善了复杂交通场景中的决策能力｡从开环评测效果角度，相较于 UniAD 模型，Open Drive VLA 对环境的感知能力更强，没有对周遭车辆的过度反应，生成的轨迹更为平滑｡

OpenDrive VLA 仍面临诸多问题｡1) 为了平衡模型推理速度和计算开销，LLM 模型采用隐式推理，缺乏明确的 CoT 过程，导致模型在复杂场景中的推理能力和模型的可解释性较差；2) 目前的测评仍是开环评测，后续的闭环测试和仿真场景搭建预计仍然存在困难；3) 模型的自回归特性阻碍了高速场景中的实时推理｡

小米 ORION 框架引入 QT-Former 模块实现了长时序记忆
小米 ORION 架构是典型三段式 VLA 架构，主要由三个关键组件构成：QT-Former､LLM 及生成式规划器｡首先通过视觉编码器对图像编码；其次 QT-Former 实现长期上下文提取并连接视觉空间与 LLM 模型的推理空间；LLM 将场景特征､历史视觉信息､用户指令等多模态信息结合执行推理任务并预测一个规划标记；最后生成式规划器生成由规划标记条件约束的多模态轨迹｡该框架利用 QT-Former 和生成式规划器分别连接了视觉 - 推理､推理 - 动作空间，实现了从图像感知到视觉问答再到动作规划的统一端到端优化，模型创新之处在于 QT-Former 动态记忆模块的引进一定程度解决了长时序记忆问题以及 VAE 模块优化了轨迹生成｡

QT-Former 模块实现图像压缩和长时序建模｡通常 VLM 模型要求输入的都是高分辨率图像，但高分辨率图像 token 化后计算量较高，不能保证端侧模型输出的实时性，因此小米引入了 QT-Former, 其类似一个信息筛选机制，负责提取对语言文本生成最有用的图像特征并压缩转化为 LLM 可以理解的 token｡长时序建模层面，传统 VLM 模型一般利用拼接多帧图像进行时序记忆，这种方法受制于 Token 长度，QT-Former 引入了动态记忆模块和历史查询机制一定程度上解决了长时序记忆的问题｡其运作机理为初始化感知 Query 与场景 Query, 首先原始感知 Query 与场景 Query 先通过自注意力模块交换信息；然后与带有 3D 位置编码的图像特征执行交叉注意力并分别获得感知结果及新的场景 Query, 其中感知结果被输入至任务头用于各项任务，新的场景 Query 与 long-term Memory Bank (记忆库) 中的历史 Query 再执行交叉注意力以不断地更新历史 Query 并按照先进先出的替换原则再存储到记忆库中｡其创新之处在于，不同于以往记忆模块只简单存储压缩后信息而不关注提取当前场景信息的机械机制，小米通过初始化少量历史 Query, 能够进一步提取与历史信息最密切相关的当前场景特征，增强了模型的长期记忆能力｡

小米 ORION 架构的工程化部署面临挑战｡根据小米公开数据，ORION 架构在 Bench2Drive 数据集上获得了较好的闭环测试性能，获得了 77.74 的驾驶分数和 54.62% 的成功率，相较于 SOTA 方法分别增长 14.28 分和 19.61pct 的成功率｡但我们认为其距离商用落地仍有较多工作：1) 基座模型使用开源模型 Vicuna v1.5, 没有针对自动驾驶做微调，不同模块间的配合及针对自驾任务的性能可能不足；2) LLM 模型参数规模庞大，端侧推理实时性难以保证｡目前可行的路径之一是将 QT-Former 与 VAE 模型连接，将 LLM 模型用作辅助推理，形成实质的双系统模式，在端侧芯片能力足够和模型运算效率优化以后再部署全局端到端；3) 图像编码器或仍沿用传统的 2D 网络，模型的 3D 空间理解能力较弱影响模型性能｡

理想 Mind VLA: 深度融合空间､语言及行为智能

Mind VLA 六大关键技术，构建自驾模型新范式｡24 年 10 月理想汽车双系统架构正式推送，但彼时的模型架构尚存在诸多问题，例如双系统联合优化困难､基于开源的 VLM 模型在 3D 空间理解能力上仍然不足､模型的多模态性处理不足 (输出方式为 Transformer 回归建模，难以处理驾驶行为多模态性)､人类价值观对齐不足等｡基于双系统实践和对前沿技术的吸收，理想汽车推出了自研 Mind VLA 模型，提出了 6 大关键技术：3D 空间理解能力构建､基础语言模型构建､语言模型推理效率优化､Diffuison 轨迹生成､RLHF､云端 world model 强化学习｡其模型方案可以理解为：利用 3D 空间编码器编码环境特征输入至语言空间，语言空间利用逻辑推理能力和空间理解能力将输入信息处理后给出合理的高层级 action token, 然后通过 diffusion 模型进一步优化出最佳的驾驶轨迹，实现空间智能､语言智能､行为智能的统一｡

基础语言模型重构､RLHF､云端 world model 强化学习主要解决模型计算效率与类人性问题｡除了从算法优化的角度提升模型计算效率，从模型自身构建角度是更为根本的解决方法，当前 VLM 一般是由开源 LLM + 预训练 Vision encoder 构建，这类方法简便易行，但基于互联网数据训练却限制了模型 VL 部分的实现效果，一方面是开源 LLM 虽经过微调与后训练，但模型构成中仍有大量与自驾无关的参数占用硬件资源；另一方面是基于开源数据训练的 Vision encoder 无法充分利用自驾领域成熟的感知网络｡理想重新配比了 3D 数据､自动驾驶相关图文数据与文史类数据的比例，从零训练语言模型并自定义自驾专用 LLM input tokenizer, 根本上选择了更为困难但上限更高的路径以解决模型效率问题｡

RLHF 与云端世界模型强化训练是模型后训练环节，主要解决模型类人性问题｡RLHF 方法是通过筛选大量 NOA 接管数据 (不符合人类预期的表现) 以建立人类偏好数据集，使模型从特定的偏好数据中学习对齐人类行为，提升模型的安全下限｡同时 MindVLA 基于自研的重建 + 生成云端统一世界模型，深度融合重建模型的三维场景还原能力与生成模型的新视角补全，以及未见视角预测能力，构建接近真实世界的仿真环境实现了基于仿真环境的大规模闭环强化学习，并利用工程化能力将 3D GS 的训练速度提升了 7 倍以上｡通过创新性的预训练与后训练方式，Mind VLA 实现了优秀的模型表现与泛化能力，预计将成为部署与量产最快的车端 VLA 模型｡

☟☟☟

☞人工智能产业链联盟筹备组征集公告☜

☝

精选报告推荐：

11份清华大学的DeepSeek教程，全都给你打包好了，直接领取：

【清华第一版】DeepSeek从入门到精通

【清华第二版】DeepSeek如何赋能职场应用？

【清华第三版】普通人如何抓住DeepSeek红利？

【清华第四版】DeepSeek+DeepResearch让科研像聊天一样简单？

【清华第五版】DeepSeek与AI幻觉

【清华第六版】DeepSeek赋能家庭教育

【清华第七版】文科生零基础AI编程：快速提升想象力和实操能力

【清华第八版】DeepSeek政务场景应用与解决方案

【清华第九版】迈向未来的AI教学实验

【清华第十版】DeepSeek赋能品牌传播与营销

【清华第十一版】2025AI赋能教育：高考志愿填报工具使用指南

10份北京大学的DeepSeek教程

【北京大学第一版】DeepSeek与AIGC应用

【北京大学第二版】DeepSeek提示词工程和落地场景

【北京大学第三版】Deepseek 私有化部署和一体机

【北京大学第四版】DeepSeek原理与落地应用

【北京大学第五版】Deepseek应用场景中需要关注的十个安全问题和防范措施

【北京大学第六版】DeepSeek与新媒体运营

【北京大学第七版】DeepSeek原理与教育场景应用报告

【北京大学第八版】AI工具深度测评与选型指南

【北京大学第九版】AI+Agent与Agentic+AI的原理和应用洞察与未来展望

【北京大学第十版】DeepSeek在教育和学术领域的应用场景与案例(上中下合集)

8份浙江大学的DeepSeek专题系列教程

浙江大学DeepSeek专题系列一--吴飞：DeepSeek-回望AI三大主义与加强通识教育

浙江大学DeepSeek专题系列二--陈文智：Chatting or Acting-DeepSeek的突破边界与浙大先生的未来图景

浙江大学DeepSeek专题系列三--孙凌云：DeepSeek：智能时代的全面到来和人机协作的新常态

浙江大学DeepSeek专题系列四--王则可：DeepSeek模型优势：算力、成本角度解读

浙江大学DeepSeek专题系列五--陈静远：语言解码双生花：人类经验与AI算法的镜像之旅

浙江大学DeepSeek专题系列六--吴超：走向数字社会：从Deepseek到群体智慧

浙江大学DeepSeek专题系列七--朱朝阳：DeepSeek之火，可以燎原

浙江大学DeepSeek专题系列八--陈建海：DeepSeek的本地化部署与AI通识教育之未来

4份51CTO的《DeepSeek入门宝典》

51CTO：《DeepSeek入门宝典》：第1册-技术解析篇

51CTO：《DeepSeek入门宝典》：第2册-开发实战篇

51CTO：《DeepSeek入门宝典》：第3册-行业应用篇

51CTO：《DeepSeek入门宝典》：第4册-个人使用篇

5份厦门大学的DeepSeek教程

【厦门大学第一版】DeepSeek大模型概念、技术与应用实践

【厦门大学第二版】DeepSeek大模型赋能高校教学和科研

【厦门大学第三版】DeepSeek大模型及其企业应用实践

【厦门大学第四版】DeepSeek大模型赋能政府数字化转型

【厦门大学第五版】DeepSeek等大模型工具使用手册-实战篇

10份浙江大学的DeepSeek公开课第二季专题系列教程

【精选报告】浙江大学公开课第二季：《DeepSeek技术溯源及前沿探索》（附PDF下载）

【精选报告】浙江大学公开课第二季：2025从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例（附PDF下载）

【精选报告】浙江大学公开课第二季：智能金融——AI驱动的金融变革（附PDF下载）

【精选报告】浙江大学公开课第二季：人工智能重塑科学与工程研究（附PDF下载）

【精选报告】浙江大学公开课第二季：生成式人工智能赋能智慧司法及相关思考(附PDF下载）

【精选报告】浙江大学公开课第二季：AI大模型如何破局传统医疗（附PDF下载）

【精选报告】浙江大学公开课第二季：2025年大模型：从单词接龙到行业落地报告（附PDF下载）

【精选报告】浙江大学公开课第二季：2025大小模型端云协同赋能人机交互报告（附PDF下载）

【精选报告】浙江大学公开课第二季：DeepSeek时代：让AI更懂中国文化的美与善（附PDF下载）

【精选报告】浙江大学公开课第二季：智能音乐生成：理解·反馈·融合（附PDF下载）

6份浙江大学的DeepSeek公开课第三季专题系列教程

【精选报告】浙江大学公开课第三季：走进海洋人工智能的未来（附PDF下载）

【精选报告】浙江大学公开课第三季：当艺术遇见AI：科艺融合的新探索（附PDF下载）

【精选报告】浙江大学公开课第三季：AI+BME，迈向智慧医疗健康——浙大的探索与实践（附PDF下载）

【精选报告】浙江大学公开课第三季：心理学与人工智能（附PDF下载）

【精选报告】浙江大学公开课第三季：人工智能赋能交通运输系统——关键技术与应用（附PDF下载）

【精选报告】浙江大学公开课第三季：人工智能与道德进步（附PDF下载）

相关阅读

干货推荐：

【AI加油站】第一部：《大型语言模型应用检索增强生成：改变搜索、推荐和 AI 助手》附下载

【AI加油站】第二部：《程序员的自我修炼手册》（附下载）

【AI加油站】第三部：《大规模语言模型：从理论到实践》（附下载）

【AI加油站】第四部：《使用生成式人工智能和Python开始数据分析》（附下载）

【AI加油站】第五部：《使用生成式人工智能和Python开始数据分析》（附下载）

【AI加油站】第六部：《时间序列：建模、计算与推断》（附下载）

【AI加油站】第七部：《因果关系的逻辑理论的好书-A Logical Theory of Causality》（附下载）

【AI加油站】第八部：《模式识别（第四版）-模式识别与机器学习》（附下载）

【AI加油站】第九部：《Python深度学习（中文版）》（附下载）

【AI加油站】第十部：《机器学习方法》（附下载）

【AI加油站】第十一部：《深度学习》（附下载）

【AI加油站】第十二部：《从零开始的机器学习》（附下载）

【AI加油站】第十三部：《Transformer入门到精通》（附下载）

【AI加油站】第十四部：《LLM 应用开发实践笔记》（附下载）

【AI加油站】第十五部：《大模型基础完整版》（附下载）

【AI加油站】第十六部：《从头训练大模型最佳实践》（附下载）

【AI加油站】第十七部：《大语言模型》（附下载）

【AI加油站】第十八部：《深度强化学习》（附下载）

【AI加油站】第十九部：清华大学《大模型技术》（附下载）

【AI加油站】第二十部：Prompt入门神书-《Prompt 学习指南》（附下载）

【AI加油站】第二十一部：吴恩达&open AI联合推出《大模型通关指南》（附下载）

【AI加油站】第二十二部：《李宏毅深度学习教程》值得反复阅读的神书！（附下载）

【AI加油站】第二十三部：Prompt经典中文教程-《提示工程指南》（附下载）

【AI加油站】第二十四部：爆火下载28万次！MIT最新神书《理解深度学习》（附下载）

【AI加油站】第二十五部：LLM4大名著，OpenAI专家强推《深度解析：大语言模型理论与实践》（附下载）

【AI加油站】第二十六部：NLP大牛Thomas Wolf等新书《Transformer自然语言处理》（附下载）

【AI加油站】第二十七部：哈工大博士耗时一年整理《PyTorch常用函数手册》，轻松掌握PyTorch的各种操作（附PDF下载）

【AI加油站】第二十八部：大模型炼丹大师必备《深度学习调优指南中文版-系统性优化模型》（附下载）

面试推荐：

【AI加油站】AI面试专题一：BIO,NIO,AIO,Netty面试题（附下载）

【AI加油站】AI面试专题二：Git常用命令面试题（附下载）

【AI加油站】AI面试专题三：Java常用面试题（附下载）

【AI加油站】AI面试专题四：Linux系统的面试题集（附下载）

【AI加油站】AI面试专题五：Memcached 面试题集（附下载）

【AI加油站】AI面试专题六：MyBatis框架的面试题（附下载）

【AI加油站】AI面试专题七：MySQL相关的面试题资料（附下载）

【AI加油站】AI面试专题八：Netty面试题资料（附下载）

【AI加油站】AI面试专题九：Nginx的面试题资料（附下载）

【AI加油站】AI面试专题十：RabbitMQ的面试题资料（附下载）

【AI加油站】AI面试专题十一：Redis的面试题资料（附PDF下载）

【AI加油站】AI面试专题十二：Spring的面试题资料（附PDF下载）

【AI加油站】AI面试专题十三：Apache Tomcat的面试题资料（附PDF下载）

【AI加油站】AI面试专题十四：Zookeeper的面试题资料（附PDF下载）

【AI加油站】AI面试专题十五：《阿里巴巴Java开发手册》终极版的面试题资料（附PDF下载）

【AI加油站】AI面试专题十六：大数据技术面试题资料（附PDF下载）

人工智能产业链联盟高端社区

精选主题推荐：

Manus学习手册

从零开始了解Manus

DeepSeek 高级使用指南，建议收藏

一次性说清楚DeepSeek，史上最全（建议收藏）

DeepSeek一分钟做一份PPT

用DeepSeek写爆款文章？自媒体人必看指南

【5分钟解锁DeepSeek王炸攻略】顶级AI玩法，解锁办公+创作新境界！

DeepSeek接入个人微信！24小时智能助理，随时召唤！

PS×Deepseek：一句话编写PS脚本，搞定PS批量导出图层

如何让AI给自己打工，10分钟创作一条爆款视频？

荐：

【中国风动漫】《姜子牙》刷屏背后，藏着中国动画100年内幕！

【中国风动漫】除了《哪吒》，这些良心国产动画也应该被更多人知道！

【中国风动漫】《雾山五行》大火，却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折！

声明

免责声明：部分文章和信息来源于互联网，不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题，请立即与小编联系（微信号：913572853），我们将迅速采取适当的措施。本订阅号原创内容，转载需授权，并注明作者和出处。如需投稿请与小助理联系（微信号：AI480908961）

编辑：Zero