自驾VLA新SOTA!阿里AutoDrive-R²:自反思思维链&物理奖励,突破VLA泛化瓶颈

大模型之心Tech 2025-09-06 17:30

资讯配图

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

今天自动驾驶之心为大家分享阿里巴巴和昆士兰大学等团队最新的工作 — AutoDrive-R²全新自反思思维链数据集,结合基于物理奖励的GRPO取得自动驾驶VLA最新SOTA。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群加入,也欢迎添加小助理微信AIDriver005做进一步咨询

>>自动驾驶前沿信息获取自动驾驶之心知识星球

论文作者 | Zhenlong Yuan等

编辑 | 自动驾驶之心

近期自动驾驶VLA通过融合多模态感知与决策能力,已经展现出下一代智能驾驶量产方案的潜力。然而,决策过程的可解释性、连贯性以及动作序列的合理性仍未得到充分研究。为解决这些问题,阿里巴巴和昆士兰大学的团队提出AutoDrive-R²——一种新型VLA框架,该框架通过思维链处理与强化学习,同时增强自动驾驶系统的推理与自反思能力。具体而言:

  • 首先构建了一个用于监督微调SFT的全新CoT数据集,命名为nuScenesR²-6K;该数据集通过包含自反思验证的四步逻辑链,有效搭建了输入信息与输出轨迹之间的认知桥梁。
  • 其次为在RL阶段最大化模型的推理与自反思能力,本文进一步在基于物理的奖励框架内采用GRPO算法;该奖励框架整合了空间对齐、车辆动力学与时间平滑性准则,以确保轨迹规划的可靠性与真实性。

在nuScenes和Waymo两个数据集上的大量评估结果表明,所提方法具备SOTA的性能与强大的泛化能力。

资讯配图
  • 论文链接:https://arxiv.org/abs/2509.01944

引言

近年来,自动驾驶技术取得了快速发展。这类系统通常以传感器数据为输入,以规划轨迹为输出。传统流水线方法大多采用“感知-建图-预测-规划”模块化的架构,该设计存在两个关键局限性:一是误差累积,二是各组件间缺乏联合优化,最终导致性能下降。与之相比,现代方法将这些复杂系统统一为单一的端到端范式,天然具备三大优势:系统简化、鲁棒性增强与误差累积减轻。

然而,这些端到端方法的核心聚焦于轨迹规划,缺乏复杂驾驶场景所需的情景推理能力。为解决这一局限,近期研究将视觉-语言模型(Vision-Language Models, VLMs)集成到自动驾驶系统中,借助VLM的预训练推理能力,提升复杂场景下的决策性能。与传统“从零开始训练感知-策略模块”的方法不同,基于VLM的方法通过在数百万图像-文本对上预训练,对预训练模型进行微调,使车辆能够理解动态交通场景并制定复杂的导航策略。尽管已取得良好效果,现有系统在持续生成准确规划输出方面仍存在不足。

在VLM的基础上,视觉-语言-动作(VLA)模型进一步将推理能力扩展到最终动作预测,使机器人与自动驾驶车辆能够从视觉输入和文本指令中生成精确动作。这一进展推动自动驾驶领域采用类似的动作生成机制,例如π0提出了“action tokenizers”,用于预测精确轨迹。

但当前自动驾驶领域的VLA方法仍面临两个阻碍实际部署的关键局限:

  1. 轨迹生成框架常产生物理不可行输出:现有通过VLM直接生成文本指令或路径点的方法,频繁出现物理不可行输出与模型坍缩问题。尽管有研究提出“元动作”或“潜在动作token”等中间表示以缓解这些问题,但此类设计违背了端到端优化原则,且大幅增加模型复杂度开销。
  2. 复杂场景下推理能力不足:多数方法采用简单推理策略,无法同时兼顾复杂道路状况与车辆运动学约束,导致预测轨迹严重偏离现实需求。

这些局限凸显了研发新型VLA框架的迫切性——该框架需平衡架构简洁性、强大的情境理解能力与严格的物理约束。

为克服上述挑战,本文提出AutoDrive-R²,一种新型VLA框架,通过两阶段训练方法同时提升推理质量与物理可行性。核心思路在于:有效的自动驾驶需要可系统验证与优化的结构化推理过程。具体而言,为解决复杂场景下情境推理不足的问题,本文首先构建了用于监督微调的思维链(CoT)数据集nuScenesR²-6K。nuScenesR²-6K是自动驾驶领域首个同时激发VLA模型推理与自反思能力的数据集;与以往自动驾驶数据集不同,该数据集不仅提供真值轨迹,还包含推理与自反思步骤,确保驾驶行为的正确性与因果合理性。

此外,为解决物理不可行轨迹生成的难题,本文进一步针对自动驾驶任务的组相对策略优化(GRPO),设计了基于物理的奖励框架。该框架通过明确纳入空间对齐、车辆动力学与时间平滑性约束,使强化学习能够适应不同驾驶场景与车辆动力学特性,同时保证轨迹的物理可行性与行驶舒适性。在nuScenes和Waymo数据集上的全面实验表明,AutoDrive-R²实现了最先进的性能。本文的主要贡献如下:

  • 提出AutoDrive-R²——一种新型VLA框架,能够基于视觉信息与语言指令,实现带自反思步骤的语义推理与轨迹规划。
  • 构建nuScenesR²-6K数据集:该创新性CoT数据集采用含自反思的四步逻辑链,助力模型在监督微调后建立基础感知能力。
  • 提出基于GRPO的RL后续训练方法:该方法将基于物理的奖励作为约束,优化不同场景下的规划轨迹。

相关工作回顾

自动驾驶

近年来,自动驾驶技术已从传统的“感知-在线建图-预测-规划”模块化流水线,逐步向端到端基于学习的方法演进。UniAD首次将所有子任务集成到一个级联模型中,相比传统模块化方法实现了显著性能提升。部分方法通过提取BEV特征,并通过多阶段交互建模预测规划轨迹。

随着视觉-语言模型的兴起,研究人员越来越多地将大语言模型与VLMs集成到自动驾驶系统中,以提升整体系统性能。已有多种方法引入预训练LLM,生成驾驶动作及可解释的文本说明。此外,DriveVLM通过集成专用推理模块提升场景理解能力;DriveMM处理多视图视频与图像输入,以增强车辆控制的泛化性;DriveMLM则引入行为规划模块,生成带合理依据的最优驾驶决策。

此外,视觉-语言-动作(Vision-Language-Action, VLA)模型在机器人领域的近期成功,为自动驾驶提供了新的研究视角。DriveMoE基于具身AI框架π0构建,通过训练路由网络激活针对不同驾驶行为的专家模块,引入了动作专家混合(Action-MoE)机制。此外,OpenDriveVLA提出“智能体-环境-自车”交互模型,用于精确轨迹规划;AutoVLA则直接从视觉输入与语言提示中预测语义推理结果与轨迹规划方案。

通用视觉-语言模型

近年来,大型语言模型(LLMs)的成功推动研究人员将其扩展为视觉-语言模型(VLMs)——这类模型融合文本与视觉数据,实现更丰富的多模态表示。开创性工作CLIP(对比语言-图像预训练)通过图像编码器与文本编码器结合,采用零样本学习策略,预测图像-文本样本对的正确匹配关系。类似地,BLIP与BLIP-2通过图像-文本对比(image-text contrastive, ITC)损失实现视觉与语言表示的对齐,并借助图像-文本匹配(image-text matching, ITM)损失区分正负图像-文本对,从而增强基于文本上下文的视觉表示能力。

受这些方法启发,许多VLMs(如LLaVA与Qwen2.5-VL)通过将大型语言模型作为文本编码器(如LLaMA),进一步提升了预训练视觉编码器的鲁棒性与表示能力。OmniGen2是另一类典型VLMs,其为文本与图像模态设计了两条独立的解码路径,采用非共享参数与解耦图像token化器。值得注意的是,DeepSeekV3引入了鲁棒的专家混合(Mixture-of-Experts, MoE)语言模型,采用无辅助损失策略实现负载均衡,在推理效率与成本效益上均有优势。

用于后续训练的强化学习

强化学习(Reinforcement Learning, RL)已被广泛应用于大型语言模型,研究人员发现,基于人类反馈的强化学习 - RLHF能显著提升模型的推理能力。在这些方法中,PPO最初用于模拟机器人运动与Atari游戏环境,随后被OpenAI用于微调GPT,在文本生成任务中实现了大幅性能提升。

与传统RLHF方法不同,DPO提出了一种新的奖励模型参数化方式,无需在微调过程中进行采样。奖励微调(Reward Fine-Tuning, RFT)是另一种基于RL的方法,在数学推理任务中表现出优异性能。此外,GRPO无需依赖外部工具包或投票机制,即可有效提升LLMs的推理能力。例如,DeepSeek-R1利用GRPO对模型进行微调,性能优于现有方法。组策略梯度(Group Policy Gradient, GPG)是一种极简RL方法,无需监督微调或复杂技巧即可提升大型语言模型的推理能力,且在多种任务中表现出强性能。受这些方法启发,近期有研究采用类似微调策略,以提升多模态模型的推理能力。

AutoDrive-R²算法详解

概述

本节将对AutoDrive-R²进行概述。轨迹规划任务的目标是让模型基于车辆的历史传感器数据与上下文信息,预测其未来运动状态。形式化定义为:给定车辆历史状态序列(包含位置、加速度、速度、转向角等信息)与相机图像,模型输出未来3秒内、以0.5秒为时间间隔的BEV轨迹坐标,其数学表达式为

如图2所示,我们的训练过程分为两个阶段。第一阶段,构建高质量冷启动数据集nuScenesR²-6K,通过包含自反思验证的四步逻辑链,搭建输入信息与输出轨迹之间的认知桥梁;第二阶段,采用基于物理的强化学习框架,该框架整合了空间对齐、车辆动力学与时间平滑性准则,以确保生成物理可行且安全的轨迹。

资讯配图

含自反思的逻辑思维链(CoT)数据集

视觉-语言-动作(VLA)模型在自动驾驶领域的成功,关键在于其能否同时生成可解释的推理过程与物理可行的动作。然而,现有训练方法往往难以满足这一双重需求,导致模型要么缺乏可解释的决策过程,要么生成不切实际的轨迹。为探究这一问题,我们最初借鉴基于推理的强化学习(RL)最新进展,尝试直接通过强化学习优化轨迹规划,但初步实验表明,仅通过强化学习训练的模型,其轨迹规划性能显著低于先经过监督微调(SFT)再进行强化学习的模型。因此,我们提前构建了高质量冷启动数据集nuScenesR²-6K,以训练模型在轨迹规划方面的基础理解能力。

具体而言,我们从nuScenes训练集中手动标注了6000个“图像-轨迹”样本对,随后利用先进的Qwen2.5-VL-72B模型合成思维链(CoT)推理序列。如图2(a)所示,给定前视图图像、车辆历史状态(作为输入)与对应的真值轨迹(作为输出),我们预先定义了特定的CoT提示词,引导模型按照以下格式构建推理序列:“推理过程在此处((x₁, y₁), ..., (xₙ, yₙ))”。

此外,我们观察到,现有许多方法依赖通用提示词实现“问题-答案”的推理,缺乏用于理性分析的结构化引导。这种策略在简单任务中虽有效果,但在面对复杂数学或逻辑问题时往往失效。为解决这一局限,我们的CoT提示词设计将轨迹规划系统地分解为三个相互关联的推理阶段:

  1. 图像驱动分析:建立基础场景理解(如障碍物与车道定位、交通标志检测),为后续推理奠定基础。
  2. 基于物理的计算:利用运动学方程(如角动量守恒)将抽象观测转化为可量化的预测结果。
  3. 上下文逻辑综合:整合领域特定知识(如交叉路口交通规则),确保预测结果符合真实世界的驾驶规范。

为进一步提升模型的鲁棒性与答案正确性,我们借鉴数学推理框架中“通过反向验证结论”的思路,明确引入“自反思”作为第四步。这一步骤使模型能够验证自身推理的连贯性,并修正潜在矛盾。因此,我们的提示词实现了四步逻辑链:
可视化 → 计算 → 逻辑 → 反思
该逻辑链可实现系统性且抗误差的推理,详细内容见补充材料。

最终,nuScenesR²-6K数据集用于Qwen2-VL-7B模型的监督微调,从而得到第一阶段模型。该预训练模型能够通过“结构化、分步式且包含自反思”的推理机制,有效实现轨迹规划。

GRPO

我们遵循GRPO算法对模型进行训练。与依赖评论家网络(critic networks)估计价值函数的传统方法不同,GRPO引入了候选响应间的成对比较(pairwise comparison)机制。这种设计不仅简化了架构,还降低了训练过程中的计算开销。该方法的流程为:对于给定的输入问题,通过策略采样生成个不同的候选响应。针对我们的特定任务,我们设计了两个基于规则的可验证奖励函数,用于评估响应质量。

准确性奖励

为更好地适配轨迹规划任务,我们定义了基于物理的准确性奖励,该奖励整合了空间、运动学与时间约束以进行评估,具体细节将在下文章节中说明。

格式奖励

格式奖励用于强制模型严格遵守要求的输出格式。模型必须按照以下形式生成响应:“推理过程在此处(x₁, y₁), ..., (xₙ, yₙ)”。若格式正确,赋值为1;若格式错误,则赋值为0。

综上,响应的总奖励定义为:

为量化所有响应的相对质量,GRPO通过“减去组均值并除以标准差”对这些分数进行归一化。因此,每个响应的优势函数可表示为:

其中为第个答案的相对优势。随后,优化目标进一步引入正则化项,以确保更新后的策略与原始参考策略保持接近。这一目标通过在损失函数中加入KL散度项实现:

其中为超参数,用于平衡优化过程中“探索”与“稳定性”之间的权衡。

基于物理的准确性奖励

在自动驾驶任务中,传统奖励函数设计往往仅关注轨迹位置误差,而忽略了几何、动力学与时间维度的复杂约束。为解决这一问题,我们提出基于物理的奖励框架,该框架整合了空间对齐、车辆动力学与时间连续性,全面引导模型生成安全、可行且舒适的驾驶策略。这种多维度方法不仅确保几何准确性,还明确纳入了真实车辆的物理限制与运动平滑性感知需求,形成了整体优化目标。

空间对齐:平衡机动性

任何轨迹奖励函数的核心,在于使其预测路径与目标路线对齐。我们将空间准确性项定义为“预测坐标与真值坐标之间的平均平方欧氏距离”:

其中表示时间步数,分别为第个时间步的预测坐标,分别为对应时间步的真值坐标。该公式通过惩罚所有时间步的偏差,优先保证全局路径贴合度,确保车辆沿预定路线行驶。然而,仅关注位置误差最小化可能导致物理不可行的结果——例如,严格遵循最短路径可能引发急转向或急加速,这不仅违反车辆运动学规律,还会降低乘客舒适性。因此,我们引入基于车辆动力学的额外约束,以平衡几何精度与实际可行性。

车辆动力学:连接感知与控制

自动驾驶系统必须遵循真实世界的物理限制,这些限制由转向运动学与纵向动力学决定。忽略这些限制可能导致轨迹无法执行(例如,需要无穷扭矩实现急转向)或影响乘客舒适性。为确保运动学可行性,我们通过以下公式定义转向角偏差惩罚项

其中分别表示第个时间步的预测转向角与真值转向角。此外,为解决非物理加速/制动模式的问题,我们引入了额外的速度约束项:

其中分别表示第个时间步的预测速度与真值速度。

综上,共同强制模型遵守车辆特定约束,确保生成的轨迹既具备物理可执行性,又能在混合交通场景中满足社会接受度。这些约束明确连接了“感知驱动规划”与“执行器级控制”,确保预测轨迹在符合物理边界的同时,维持良好的行驶质量。

时间平滑性:保障导航可靠性

轨迹预测中的时间不连续性,会从根本上削弱自动驾驶系统的可靠性。当转向或加速指令在时间步之间出现突变时,预测轨迹可能失去连贯性,进而影响系统维持安全导航所需的稳定、可预测运动模式的能力。为解决这一问题,我们引入时间平滑性项,对连续控制信号的急剧变化进行惩罚:

这种设计确保了预测轨迹的时间连贯性。通过明确约束转向角与速度的变化率,奖励函数过滤掉了可能导致车辆状态估计不稳定的振荡,增强了模型在不同驾驶场景下的泛化能力,同时在执行过程中维持了安全余量。

综合奖励函数

最终奖励函数通过可学习权重整合了所有维度:

其中为可学习系数,用于平衡不同目标之间的权衡。在实验中,我们将所有系数均设为1。这种整体公式确保模型生成的轨迹具备几何准确性、动力学可行性与时间平滑性,从而应对自动驾驶的多方面挑战。

实验结果分析

实验设置

数据集

训练阶段,我们采用nuScenesR2-6K数据集。该数据集包含6000个“图像-轨迹”样本对,每个样本对均包含一张前视图图像和一段时长3秒、时间间隔为0.5秒的轨迹规划数据。为在强化学习(RL)前建立基础感知能力,我们基于这些样本对对Qwen2.5-VL-7B模型进行监督微调(SFT)。评估阶段,我们在nuScenes和Waymo两个数据集上测试所提方法,二者均提供了全面的自动驾驶数据:nuScenes数据集包含1000个城市驾驶场景,配备6个同步摄像头视角以支持规划任务;Waymo数据集包含4021个驾驶片段,涵盖8个摄像头视角和自车轨迹数据。

实验细节

我们在Qwen2.5-VL-3B和Qwen2.5-VL-7B两个模型上开展实验。两个训练阶段的学习率均设为5e-7,累计总批次大小(accumulated total batch size)为1。组相对策略优化(GRPO)的最大生成长度设为4096个token,每个输入样本生成6个候选响应。

评估指标

我们采用预测轨迹与真值轨迹在未来1秒、2秒、3秒时间跨度下的L2距离(单位:米),以及平均L2误差作为评估指标。所有模型均使用官方检查点(checkpoint),并在相同的评估代码下进行性能测试。

评估结果

nuScenes数据集上的结果

表1对比了所提方法与现有方法在nuScenes数据集上的预测误差。值得注意的是,我们的方法在所有时间跨度下均持续取得最佳性能,超越了EMMA+等现有领先方法——这些方法的训练依赖包含10.3万个场景的大规模内部数据集,而我们的训练数据仅包含第一阶段6000个精心构建的思维链(CoT)样本和第二阶段另外6000个样本,规模约为EMMA+数据集的11.65%。此外,尽管所提模型的参数量远小于Qwen2-VL-7B,但性能仍实现显著提升,将L2误差降低了86.9%。

资讯配图

Waymo数据集上的零样本性能

此外,表2展示了所提模型强大的零样本能力:相较于最新的EMMA+方法和Qwen2-VL-72B基准模型,我们的方法分别将L2误差降低了33.3%和90.7%。总体而言,所提模型在多个数据集上均能稳定生成精确的轨迹预测,展现出最先进(state-of-the-art, SOTA)的性能和泛化能力。

资讯配图

模型规模影响

在表1和表2中,我们在两阶段训练框架下对比了Qwen2.5-VL的3B和7B两个版本,以分析模型规模的影响。尽管7B模型性能更优,平均L2误差仅为0.19米,但3B版本相较于其基准模型仍实现了显著提升。这种性能差异表明,更大规模的模型本质上能捕捉更复杂的模式,而两阶段框架(SFT + GRPO)通过施加严格的轨迹约束和上下文逻辑综合,有效弥补了3B模型的能力局限。

可视化结果

图4展示了所提方法与其他方法在nuScenes数据集上的对比分析。可以发现,Qwen2.5-VL-7B在特定场景(如(b)和(d))中无法生成准确预测,EMMA+则存在显著的轨迹偏移;与之相反,所提方法在不同光照环境和复杂运动模式下,均能稳定生成可靠且物理可行的轨迹规划。

资讯配图

消融实验

训练阶段的必要性

受DeepSeek-R1-Zero启发,我们最初尝试仅通过强化学习训练模型。如表3所示,纯强化学习训练的模型(7B + RL)在平均L2误差上比监督微调模型(7B + SFT)低22.2%。我们认为这一性能差距源于模型无法建立结构化推理链——强化学习难以探索多步计算和上下文逻辑综合所需的高维推理空间,这一观察验证了两阶段训练的必要性。

监督微调(SFT)的作用

第一阶段中,基准模型Qwen2.5-VL-7B(7B)的平均L2误差为1.45米,而基于nuScenesR²-6K数据集训练的监督微调模型(7B + SFT)将该误差降至0.27米,性能提升81.4%,这充分证明监督微调在建立基础推理能力方面的有效性。此外,移除四步推理结构(w/o. Four.)会导致误差升至0.25米,相较于AutoDrive-R²下降31.5%;移除自反思(w/o. Self.)则使误差达到0.23米,相较于AutoDrive-R²下降21.1%。这一结果凸显了四步逻辑链与自反思机制在构建高质量思维链数据集过程中的相互依赖性。

强化学习(RL)中奖励组件的贡献

第二阶段,我们评估了AutoDrive-R²基于物理的奖励框架中各奖励组件的作用。具体而言,空间对齐对维持全局几何路径精度至关重要——移除空间对齐奖励(w/o. (r_{pos}))会使误差升至0.53米,远高于完整模型;转向角正则化通过惩罚急转向确保运动学可行性,移除该组件(w/o. (r_{ste}))会导致性能下降10.5%(误差0.21米);速度一致性约束通过惩罚预测速度与真值速度的偏差确保贴合目标速度曲线,移除该约束(w/o. (r_{vel}))会使误差升至0.22米;时间平滑性惩罚通过抑制转向和速度在时间步间的突变来消除不稳定控制模式,移除该组件(w/o. (r_{tem}))会导致误差增加26.3%(误差0.24米)。将四个组件整合到基于物理的奖励框架后,AutoDrive-R²实现了0.19米的最优L2误差,证明了每个组件在满足轨迹规划的空间、运动学和时间准则方面的必要性。

输入样本候选响应数量的影响

我们还实验分析了第二阶段强化学习(GRPO)训练中“候选响应生成数量”的影响。如表4所示,将候选响应数量从2增加到6时,所有时间跨度下的L2误差均持续降低:当每个输入生成6个候选响应(w/. num = 6)时,模型实现最低平均L2误差(0.19米),性能优于生成4个(0.20米)和2个(0.23米)候选响应的情况。然而,当候选响应数量超过6个(w/. num = 8)时,性能提升逐渐减弱,这表明计算成本与性能提升之间存在权衡关系。因此,我们选择“每个输入生成6个候选响应”以平衡精度与效率。

资讯配图

更多可视化:

资讯配图
资讯配图

结论

本文提出AutoDrive-R²——一种面向自动驾驶领域“推理引导型轨迹规划”的新型视觉-语言-动作(VLA)框架。AutoDrive-R²通过两阶段训练框架,有效平衡了语义理解与真实世界约束:

  1. 监督微调(SFT)阶段:采用nuScenesR²-6K数据集,通过四步思维链(CoT)流程培养模型的结构化推理能力,并引入自反思进行验证;
  2. 强化学习(RL)阶段:利用组相对策略优化(GRPO)训练,结合基于物理的奖励框架优化轨迹规划。

实验验证了AutoDrive-R²的有效性:该方法在nuScenes和Waymo两个数据集上均实现最先进(SOTA)性能,并展现出强大的零样本泛化能力。未来研究将聚焦于多智能体协同和实时传感器融合集成,以进一步提升模型在复杂环境中的适应性。

自动驾驶之心

                                           

论文辅导来啦

资讯配图


自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

资讯配图


知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶世界模型仿真闭环3D检测车道线BEV感知Occupancy多传感器融合多传感器标定目标跟踪)自动驾驶定位建图SLAM高精地图局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

资讯配图

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试自动驾驶C++BEV感知BEV模型部署BEV目标跟踪毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪、Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真传感器部署决策规划轨迹预测多个方向学习视频

学习官网:www.zdjszx.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号