0.这篇文章干了啥?
新兴产业最新资讯:这篇文章提出了VR-Drive,一种具备视角鲁棒性的端到端自动驾驶(E2E-AD)框架,旨在解决现有E2E-AD系统对不同相机视角泛化能力不足的问题。核心创新在于将3D场景重建作为辅助任务,联合学习以实现规划感知的视图合成。该框架采用前馈推理策略,支持从稀疏视图进行在线训练时的数据增强,无需额外标注。为提高视角一致性,引入了视角混合内存库和视角一致蒸馏策略,前者促进不同视角特征的时间交互,后者将原始视图的知识转移到合成视图。VR-Drive由原始视图学习、新视图学习和感知规划学习三个组件构成,通过多种损失函数进行端到端训练。文章还发布了一个新的基准数据集,用于评估E2E-AD系统在新相机视角下的性能。实验表明,VR-Drive在nuScenes数据集和CARLA模拟器上均取得了领先性能,在不同相机视角和分布外条件下表现出强大的鲁棒性和可扩展性,为端到端自动驾驶系统的实际部署提供了有效的解决方案。
下面一起来阅读一下这项工作~
1. 论文信息
-
论文题目:VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting -
作者:Hoonhee Cho,Jae-Young Kang,Giwon Lee等 -
作者机构:KAIST,42dot -
论文链接:https://arxiv.org/pdf/2510.23205
2. 摘要
端到端自动驾驶(E2E-AD)已成为一种很有前景的范式,它将感知、预测和规划统一到一个整体的、数据驱动的框架中。然而,实现对不同相机视角的鲁棒性仍然是一个悬而未决的问题,这是由于车辆配置多样而在现实世界中常见的挑战。在这项工作中,我们提出了VR-Drive,这是一种新颖的端到端自动驾驶框架,它通过将三维场景重建作为辅助任务进行联合学习,以实现规划感知的视图合成,从而解决视角泛化问题。与以往特定场景的合成方法不同,VR-Drive采用前馈推理策略,支持在无需额外注释的情况下,从稀疏视图进行在线训练时增强。为了进一步提高视角一致性,我们引入了一个视角混合记忆库,以促进跨多个视角的时间交互,并提出了一种视角一致的蒸馏策略,将知识从原始视图转移到合成视图。VR-Drive以完全端到端的方式进行训练,有效减轻了合成引起的噪声,并改善了视角变化下的规划。此外,我们发布了一个新的基准数据集,用于评估在新相机视角下端到端自动驾驶的性能,从而实现全面分析。我们的结果表明,VR-Drive是端到端自动驾驶系统在现实世界部署中的一种可扩展且鲁棒的解决方案。
3. 效果展示
图1:一个周围车辆在交通信号灯前停下的示例场景。
在原始训练视角下,我们的VR-Drive与DiffusionDrive均能较好地感知周围车辆并进行规划。然而,当相机高度降低时,DiffusionDrive无法检测到周围车辆,导致其规划出的轨迹与前方车辆发生碰撞,存在安全风险。相比之下,VR-Drive仍能保持准确的感知(除因相机高度降低而被遮挡的部分),并像在原始视角中一样有效地规划轨迹。 @「3D视觉工坊」编译

图4:测试时采用的相机视角与原始训练分布不同。 @「3D视觉工坊」编译
4. 主要贡献
-
通过联合学习三维重建以实现规划感知视图合成,解决了端到端自动驾驶(E2E-AD)中的视点鲁棒性问题,实现了跨不同视点的训练数据增强,并提高了对未见相机配置的泛化能力。推荐课程:。 -
提出了一个视点混合内存库,使来自不同视点的特征能够进行时间交互,并引入了一种视点一致的蒸馏策略,将原始视点图像的知识转移到其对应的增强新型视图合成图像的三维空间中。 -
引入了一个用于端到端自动驾驶的新基准数据集,以评估在训练期间未见的新型相机视点下的鲁棒性。
5. 基本原理是啥?
1. 联合学习3D场景重建以实现规划感知视图合成
VR-Drive将3D场景重建作为端到端自动驾驶(E2E-AD)中的辅助模块化任务进行联合学习,以增加相机视角的多样性。采用前馈推理策略,确保效率,将其集成到端到端框架中作为联合模块化任务,减少训练复杂性。通过这种方式,在不需要额外注释的情况下实现新颖视图合成,同时防止视图合成中的错误传播并降低最终规划性能。
2. 基于3D高斯溅射的整体框架
-
原始视图学习:训练时以原始视图作为默认输入,图像编码器(ResNet50)提取原始多视图特征图。基于原始3DGS框架,用高斯基元表示场景,通过前馈方式直接从输入图像预测基元,联合学习深度作为E2E-AD框架的一部分,用预测的深度图和图像特征图输入到高斯网络预测高斯基元的其余参数,前馈设计支持对新颖视图的在线推理和对新输入的泛化。 -
新颖视图学习:VR-Drive旨在为训练期间未观察到的相机视角生成一致的特征表示。随机采样相机外参,使用从原始视图生成的高斯基元从任意视角渲染多视图特征图,用与原始视图共享的图像编码器生成新颖视图特征。由于新颖视图特征分布可能与原始视图不同,引导模型生成与原始视图紧密对齐的特征表示,还采用循环重建损失训练模型从新颖视图重新生成原始视图。 -
感知-规划学习:VR-Drive在训练期间选择性地在原始和新颖视图上进行训练,以实现跨不同相机视角的鲁棒性。将所选视图提取的图像特征传递给感知和规划头,采用3D对象检测和映射作为感知任务,使用基于锚点和实例特征的稀疏架构。在感知管道中插入视点鲁棒模块,包括视点混合内存库和视点一致蒸馏策略,通过额外的检测解码器细化视点鲁棒特征以获得最终感知结果,最后采用特定的运动规划器进行规划。
3. 视点混合内存库
为促进从具有不同分布的不同视角的图像输入中学习规范的3D特征,采用内存库策略存储和更新来自不断变化的新颖视图的特征。使用注意力机制融合内存库和当前视图的特征,得到混合特征表示,混合特征进一步通过自注意力机制处理,然后传递到视点一致蒸馏模块。视点混合内存库通过选择最终细化后的前K个高置信度实例进行更新,同时以先进先出的方式丢弃库中最旧的实例。
4. 视点一致蒸馏
新颖视图合成可能导致合成图像包含渲染伪影,尤其是在遮挡或无纹理区域。采用蒸馏策略,利用原始视图中更可靠和信息丰富的特征引导新颖视图的学习。通过计算每个实例的可学习偏移和权重来提取代表性对象特征,将3D采样点投影到每个相机视图的图像平面上并提取图像特征,对原始视图和新颖视图都进行此操作。将新颖视图采样特征与原始视图对应特征之间的均方误差损失作为视点一致蒸馏损失,将蒸馏损失限制在高置信度锚点上,以避免在背景或噪声框中进行蒸馏。
5. 损失函数设计
-
运动预测和规划:采用赢家通吃策略,规划任务中引入额外的回归损失处理自我状态。 -
分类和回归:分类使用焦点损失,检测和映射任务的回归使用L1损失,深度估计也使用L1损失。 -
渲染损失:使用L2和LPIPS损失作为渲染目标。根据是否使用新颖视图增强,采用两种替代策略应用渲染损失,包括原始重建损失(鼓励模型使用高斯基元从输入图像渲染新颖视图)和循环重建损失(当新颖视图作为感知-规划头的输入时,采用循环渲染策略从新颖视图重建原始视图)。


6. 实验结果
1. 开环规划性能评估
-
数据集:使用nuScenes基准。因该数据集无不同相机视角图像,对测试序列进行离线场景优化获取不同视角数据,经人工检查后选取146个测试序列用于未知视角测试。 -
评估指标:平均位移误差(ADE)和碰撞率。 -
对比模型:AD-MLP、BEV-Planner、VAD、SparseDrive和DiffusionDrive。 -
结果:在原始和未知领域的性能对比中,DiffusionDrive在未知领域的ADE和碰撞率显著增加,而VR-Drive在未知视角下表现与原始视角相当,在更具挑战性的相机视角和未知分布下仍能保持良好性能。
2. 消融实验
-
组件效果:通过对比不同设置下的性能,发现仅启用场景重建的联合学习就能提升原始视角的性能,表明基于3DGS的在线联合优化有助于提高E2E-AD系统的可扩展性。使用场景重建生成的新视角作为额外输入时,性能提升显著。所提出的模块进一步提升了性能,且不会在提升新视角性能时牺牲原始视角性能,说明新视角在训练中是有效的增强形式,引入的模块有助于模型学习更好的表示。 -
随机外参范围:研究了训练和测试时相机视角多样性的分布偏移。设置了“Superset”(扩大训练传感器范围)和“Subset”(限制传感器范围)两种情况,VR-Drive在“Superset”“Subset”和原始设置下表现一致,证明其对连续视角变化具有鲁棒性。
3. 闭环评估
-
实验设置:使用CARLA 0.9.10.1模拟器,采用Town05-Nov基准进行评估。对比模型包括ST-P3、TCP、AD-MLP、BEV-Planner和基线模型。 -
评估指标:驾驶得分(DS)和路线完成率(RC)。 -
结果:现有端到端自动驾驶方法在未知测试场景中规划困难,DS指标受影响更大,感知性能在新视角输入下下降。而VR-Drive在未知测试中的表现与原始视角相当。
VR-Drive在不同相机视角和分布外条件下表现出:
-
强大的鲁棒性:在未知视角下性能与原始视角相当,能应对更具挑战性的相机视角和未知分布。 -
良好的可扩展性:基于3DGS的在线联合优化有助于提高系统的可扩展性,新视角增强有效。 -
对连续视角变化的适应性:在不同相机视角多样性分布偏移设置下表现一致。



7. 总结 & 未来工作
总结
在这项工作中,作者提出了VR-Drive,这是一个统一的端到端自动驾驶框架,利用了新颖视图合成和视点鲁棒学习。据作者所知,他们是首个研究端到端自动驾驶中相机视点变化以用于实际应用的团队。作者在nuScenes数据集和CARLA模拟器上对VR-Drive进行了基准测试,在不同相机视点和分布外条件下均实现了最先进的性能。
未来展望
VR-Drive的性能会受到相机校准精度的影响。虽然校准误差可能会导致不理想的结果,但可以使系统对这些误差更具鲁棒性。解决这一问题并提高系统对校准不准确的鲁棒性可能是未来工作的一个重要重点。