自动驾驶周报|北大&小米重构世界模型!英伟达发布工业级CFD数据集......

3D视觉工坊 2025-10-27 07:00

来源:深蓝AI

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

自动驾驶周报|北大&小米重构世界模型!英伟达发布工业级CFD数据集......图1

自动驾驶技术正以前所未有的速度跨越感知、规划、仿真与安全的边界。过去一周,学术界与工业界在4D雷达融合、长尾场景泛化、世界模型数据生成、高保真空气动力学仿真、社会兼容驾驶策略、越野自动驾驶基准以及健康异常驾驶检测等关键领域取得了系列突破性进展。

本文精选7篇前沿论文,从多模态感知到可解释规划,从高保真仿真到越野基准,一文纵览自动驾驶最新技术脉络。



1

北京理工大学提出SFGFusion

基于表面拟合引导的相机-4D

SFGFusion: Surface Fitting Guided 3D Object Detection with 4D Radar and Camera Fusion
自动驾驶周报|北大&小米重构世界模型!英伟达发布工业级CFD数据集......图2

论文内容

三维目标检测对于自动驾驶至关重要。作为一种新兴传感器,4D成像雷达具有成本低、探测距离远以及测速精度高等优势,非常适合用于目标检测任务。然而,其点云稀疏且分辨率较低,限制了物体几何特征的表达能力,并对多模态融合造成了困难。本研究提出SFGFusion,一种基于曲面拟合引导的相机-4D成像雷达联合检测网络。该方法通过从图像和雷达数据中估计目标的二次曲面参数,利用显式的曲面拟合模型增强空间表征能力和跨模态交互,从而实现对细粒度密集深度信息的更可靠预测。所预测的深度信息具有两个用途:1)在图像分支中,用于指导图像特征从透视视图(PV)转换到统一的鸟瞰图(BEV),以支持多模态融合,提升空间映射的准确性;2)在曲面伪点分支中,用于生成密集的伪点云,缓解雷达点云稀疏的问题。原始雷达点云则在独立的雷达分支中进行编码。这两个点云分支均采用基于柱体(pillar)的方法,并将提取的特征转换至BEV空间。最后,利用标准的二维主干网络和检测头,基于BEV特征预测目标类别标签和边界框。实验结果表明,SFGFusion能够有效融合相机与4D雷达特征,在TJ4DRadSet和view-of-delft(VoD)目标检测基准上均取得了优异的性能表现。

论文地址:

https://arxiv.org/html/2510.19215v1

2

博世联合清华大学提出DiffVLA++框架

解决端到端在长尾场景中泛化能力差的问题

DiffVLA++: Bridging Cognitive Reasoning and End-to-End Driving through Metric-Guided Alignment

自动驾驶周报|北大&小米重构世界模型!英伟达发布工业级CFD数据集......图3

论文内容传统的端到端(E2E)驾驶模型在生成符合物理规律的轨迹方面表现有效,但由于缺乏理解与推理周围环境所必需的世界知识,往往难以泛化到长尾场景。相比之下,视觉-语言-动作(VLA)模型能够利用世界知识来应对复杂情况,但其有限的三维推理能力可能导致生成物理上不可行的动作。本文提出了DiffVLA++,一种通过度量引导对齐机制显式融合认知推理与端到端规划的增强型自动驾驶框架。首先,本文构建了一个VLA模块,可直接生成语义上有依据的驾驶轨迹;其次,本文设计了一个具备密集轨迹词表的E2E模块,以确保动作的物理可行性;第三,也是最关键的一点,本文引入了一种基于度量的轨迹评分器,用于引导并协调VLA模块与E2E模块的输出,从而整合二者的优势。在ICCV 2025自动驾驶大挑战赛排行榜上的实验结果表明,DiffVLA++取得了49.12的EPDMS得分。

论文地址:

https://arxiv.org/html/2510.17148v2

3
北大、小米联合华科大提出Dream4Drive框架
增强自动驾驶系统对罕见场景的感知能力

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

自动驾驶周报|北大&小米重构世界模型!英伟达发布工业级CFD数据集......图4

论文内容:近年来,驾驶世界模型的发展实现了对高质量RGB视频或多模态视频的可控生成。现有方法主要关注生成质量和可控性相关的评估指标,却常常忽视了对下游感知任务的评估——而这些任务对于自动驾驶系统的性能而言至关重要。目前的方法通常采用一种训练策略:先在合成数据上进行预训练,再在真实数据上微调,导致训练轮数达到仅使用真实数据基线方法的两倍。当本文同样将基线方法的训练轮数加倍时,合成数据带来的增益变得微乎其微。为了充分证明合成数据的价值,本文提出了Dream4Drive,这是一种全新的合成数据生成框架,专为提升下游感知任务性能而设计。Dream4Drive首先将输入视频分解为多个具备3D感知能力的引导图,随后将3D资产渲染到这些引导图上。最后,通过微调驾驶世界模型生成经过编辑的、多视角的逼真视频,可用于训练下游感知模型。Dream4Drive实现了大规模生成多视角极端场景(corner cases)前所未有的灵活性,显著提升了自动驾驶中对极端场景的感知能力。为促进后续研究,本文还贡献了一个名为DriveObj3D的大规模3D资产数据集,涵盖驾驶场景中的典型物体类别,支持多样化的3D感知视频编辑。本文开展了全面的实验,结果表明,无论在不同训练轮数下,Dream4Drive均能有效提升下游感知模型的性能。

论文地址:

https://arxiv.org/html/2510.19195v1

4

英伟达、百度等提出DrivAerStar

首个面向工业级应用的高保真汽车CFD仿真数据集

DrivAerStar: An Industrial-Grade CFD Dataset for Vehicle Aerodynamic Optimization

自动驾驶周报|北大&小米重构世界模型!英伟达发布工业级CFD数据集......图5

论文内容:车辆空气动力学优化在汽车电动化进程中日益关键,因为风阻的降低直接决定了电动汽车的续航里程和能源效率。传统方法面临一个难以调和的矛盾:要么采用计算成本高昂的计算流体动力学(CFD)仿真,每次设计迭代需耗时数周;要么使用简化模型,却牺牲了可用于实际生产的精度。尽管机器学习展现出变革性的潜力,但现有数据集存在根本性缺陷——网格分辨率不足、缺少车辆部件、验证误差超过5%,导致其无法投入工业应用流程。本文提出了DrivAerStar数据集,包含12,000组达到工业级标准的汽车CFD仿真结果,使用$\text{STAR-CCM+}^\unicode{xAE}$软件生成。该数据集通过自由变形(FFD)算法,系统性地在20个计算机辅助设计(CAD)参数下探索三种车辆构型,并完整包含发动机舱与冷却系统,以及真实内部气流模拟。DrivAerStar通过精细化的网格策略并严格控制壁面$y^+$值,实现了风洞实验验证误差低于1.04%——相比现有数据集精度提升五倍。基准测试表明,基于此数据训练的模型可达到适用于生产环境的精度水平,同时将计算成本从数周缩短至几分钟。这是首个成功连接学术界机器学习研究与工业界CFD实践的数据集,为汽车研发中的数据驱动型空气动力学优化树立了新标准。除汽车领域外,DrivAerStar还展示了一种范式,即如何在当前受计算资源限制而阻碍创新的各类工程学科中,实现高保真物理仿真与人工智能(AI)的有效融合。

论文地址:

https://arxiv.org/html/2510.16857v1

5

Applied Intuition联合加州大学伯克利分校等提出SPACeR框架

SPACeR: Self-Play Anchoring with Centralized Reference Models

自动驾驶周报|北大&小米重构世界模型!英伟达发布工业级CFD数据集......图6
论文内容:开发自动驾驶车辆(AV)不仅需要确保安全性和效率,还需要具备逼真、类人化的行为特征,使其在社会交互中具有感知能力且行为可预测。实现这一目标需要在多智能体环境中兼具类人性、快速响应和可扩展性的仿真智能体策略。近年来,基于大型扩散模型或离散化标记(tokenized)模型的模仿学习取得了显著进展,能够直接从人类驾驶数据中捕捉行为模式,生成高度逼真的策略。然而,这类模型计算开销大,推理速度慢,在需要快速响应的闭环交互场景中适应能力较差。相比之下,自我对弈式强化学习(self-play RL)具有良好的可扩展性,并能自然地建模多智能体之间的交互行为,但通常依赖人为设计的启发式规则和奖励函数塑形,导致最终策略可能偏离人类驾驶习惯。为此,本文提出SPACeR框架,该框架利用一个预训练的离散化自回归运动模型作为集中式的参考策略,用以指导去中心化的自我对弈过程。该参考模型提供似然奖励和KL散度信号,使策略始终锚定在人类驾驶行为分布之上,同时保持强化学习固有的可扩展性。在Waymo仿真智能体挑战赛上的实验表明,本文的方法在性能上可与基于模仿学习的策略相媲美,而推理速度提升高达10倍,模型参数量仅为大型生成模型的1/50。此外,本文在闭环主车规划评估任务中验证了所提方法的有效性:本文的仿真智能体可通过快速、可扩展的交通流模拟,有效评估规划器的性能表现,从而为自动驾驶策略的测试建立了一种全新的范式。

论文主页

https://arxiv.org/html/2510.18060v1

6

中科院、同济联合西安交大等提出ORAD-3D

目前最大的专为越野自动驾驶设计的数据集

Advancing Off-Road Autonomous Driving: The Large-Scale ORAD-3D Dataset and Comprehensive Benchmarks

自动驾驶周报|北大&小米重构世界模型!英伟达发布工业级CFD数据集......图7

论文内容:越野自动驾驶研究的一个主要瓶颈在于缺乏大规模、高质量的数据集和基准测试。为弥补这一不足,本文推出了ORAD-3D,据本文所知,这是目前专为越野自动驾驶而构建的最大规模数据集。ORAD-3D涵盖了多种地形环境,包括林地、农田、草原、河岸、碎石路、水泥路以及乡村地区,同时记录了不同天气条件(晴天、雨天、雾天、雪天)和光照水平(明亮日光、白天、黄昏和夜间)下的多样化环境变化。基于该数据集,本文建立了一套全面的基准测试体系,涵盖五个基础任务:二维自由空间检测、三维占据预测、粗略GPS引导路径规划、视觉-语言模型驱动的自动驾驶,以及面向越野环境的世界模型。该数据集与基准测试共同构成了一个统一且可靠的资源,有助于推动复杂越野场景下的感知与规划技术发展。

论文主页:https://arxiv.org/html/2510.16500v1

7

香港科技大学等提出SAFE-D框架

SAFE-D: A Spatiotemporal Detection Framework for Abnormal Driving Among Parkinson’s Disease-like Drivers

自动驾驶周报|北大&小米重构世界模型!英伟达发布工业级CFD数据集......图8

论文内容:驾驶员的健康状况是影响驾驶行为调控的关键因素。即使是轻微偏离正常状态的情况,也可能导致操作异常,从而对公共交通安全构成威胁。尽管已有研究开发出针对功能性短暂异常(如疲劳和分心)的检测机制,但对于由病理性因素引发的异常——尤其是源于慢性疾病的异常——相关研究仍十分有限。为填补这一空白,本文研究了帕金森病患者的驾驶行为,并提出了SAFE-D框架,这是一种新颖的用于检测与帕金森病相关行为异常的框架,旨在提升驾驶安全性。本文的方法首先分析帕金森病的临床症状,重点关注主要的运动功能障碍,并建立其与驾驶表现下降之间的因果关联。为了表征早期帕金森病的亚临床行为变化,该框架整合来自多个车辆控制部件的数据,构建个体化的行为特征谱。随后,本文设计了一种基于注意力机制的神经网络,能够自适应地突出关键的时空特征,从而在生理差异存在的情况下实现稳健的异常检测。最后,本文在Logitech G29设备平台和CARLA仿真环境中,利用三个不同道路地图的数据模拟真实驾驶场景,对SAFE-D进行了验证。实验结果表明,SAFE-D在区分正常驾驶与受帕金森病影响的驾驶模式方面,平均准确率达到96.8%。

论文主页:https://arxiv.org/html/2510.17517v1

本文仅做学术分享,如有侵权,请联系删文。

3D视觉硬件,官网:www.3dcver.com

自动驾驶周报|北大&小米重构世界模型!英伟达发布工业级CFD数据集......图9

3D视觉学习圈子

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

自动驾驶周报|北大&小米重构世界模型!英伟达发布工业级CFD数据集......图10

3D视觉全栈学习课程:www.3dcver.com

自动驾驶周报|北大&小米重构世界模型!英伟达发布工业级CFD数据集......图11

3D视觉交流群成立啦,微信:cv3d001

自动驾驶周报|北大&小米重构世界模型!英伟达发布工业级CFD数据集......图12

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
工业 小米 英伟达
more
英伟达五大举措遏制 ASIC 竞争对手
英伟达份额降至零,寒武纪的三季报分析
黄仁勋女儿揭秘,英伟达Physical AI战略的关键拼图,为何是他们?
英诺赛科为英伟达开发800V GaN电源方案
AMD与英伟达推进2027年AI服务器计划,重塑机架设计
并行科技COO乔楠:英伟达并非断崖式领先,国产芯片突围需摒弃对「峰值性能」的过度追求丨智算想象力十人谈
8GB 型号有价无市:消息称英伟达已针对 RTX 5060 Ti 显卡供货数量及价格进行管控
全网首拆,价值3万的英伟达Jetson AGX Thor Developer Kit拆解!
SiC+GaN成核心!一文汇总英伟达800V HVDC认证厂商解决方案
黄仁勋“撒钱”创纪录!英伟达超级AI帝国崛起,但没带中国玩
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号