Waymo基于视觉的端到端驾驶挑战赛第一名,RAP框架开源啦!3D 光栅化增强端到端规划

3D视觉工坊 2025-10-21 07:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:智驾机器人技术前线

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

Waymo基于视觉的端到端驾驶挑战赛第一名,RAP框架开源啦!3D 光栅化增强端到端规划图1

01

论文信息

  • 论文标题:RAP: 3D Rasterization Augmented End-to-End Planning
  • 作者:Lan Feng and Yang Gao and Eloi Zablocki and Quanyi Li and Wuyang Li and Sichao Liu and Matthieu Cord and Alexandre Alahi
  • 项目地址:https://alan-lanfeng.github.io/RAP/
  • 论文链接:https://arxiv.org/pdf/2510.04333

02

成就

Waymo基于视觉的端到端驾驶挑战赛第一名,RAP框架开源啦!3D 光栅化增强端到端规划图2
算法排名

03

摘要

模仿学习在端到端驾驶中的训练仅依赖于专家演示。一旦闭环部署,这类策略缺乏“恢复”数据:微小误差无法被纠正,会迅速累积成致命失误。一个有前景的方向是在已记录轨迹之外生成替代视角与轨迹。已有研究尝试通过神经渲染或游戏引擎构建照片级数字孪生,但这些方法速度极慢、成本极高,因而仅用于评估。本文指出,对于端到端规划器的训练,照片级真实感并非必需;关键在于语义保真与可扩展性——驾驶依赖几何与动力学,而非纹理或光照。基于此,我们提出 3D Rasterization:用轻量级带语义标注图元的栅格化替代昂贵渲染,支持反事实恢复机动与跨智能体视角合成等增广。为将这些合成视角有效迁移到真实部署,我们引入 Raster-to-Real 特征空间对齐,在特征层面弥合仿真-现实鸿沟。二者共同构成 Rasterization Augmented Planning(RAP)——一套可扩展的规划数据增广流水线。RAP 在闭环鲁棒性与长尾泛化上达到 SOTA,在 NAVSIM v1/v2、Waymo Open Dataset 视觉端到端驾驶、Bench2Drive 四大基准均排名第一。实验表明,轻量栅格化配合特征对齐足以规模化端到端训练,为照片级渲染提供了务实替代方案。

04

介绍

近期端到端驾驶研究普遍依赖基于神经渲染或游戏引擎构建的照片级数字孪生,这类方法追求像素级真实感,却计算繁重、难以扩展。本文证明,训练鲁棒规划器并不需要照片级真实感。我们提出的 Rasterization Augmented Planning(RAP)利用轻量级 3D 栅格化生成语义保真的增广数据,并通过特征空间对齐弥合仿真-现实鸿沟。该设计实现数据合成的规模化,并在闭环驾驶中显著提升鲁棒性与泛化能力。

Waymo基于视觉的端到端驾驶挑战赛第一名,RAP框架开源啦!3D 光栅化增强端到端规划图3
端到端驾驶的渲染范式对比。基于神经渲染或游戏引擎的方法(左)试图在像素空间最小化仿真-现实差距,但计算代价高昂。相较之下,我们的方法(右)采用 3D 栅格化,具备可扩展性与完全可控性,并在特征空间将栅格化输入与真实图像对齐。

05

主要贡献

  1. 可扩展的 3D 栅格化pipeline:仅依赖标注信息,将几何图元投影至相机视角即可重建驾驶场景。
  2. Raster-to-Real(R2R)对齐模块:结合蒸馏与对抗自适应,在特征空间桥接栅格输入与真实图像。
  3. 3D 栅格化增强端到端规划框架(RAP):通过反事实场景生成与跨智能体视角合成增广模仿学习,在多个基准测试中实现 SOTA 的闭环鲁棒性与长尾泛化能力。

06

方法概述

RAP 由两大核心模块组成:

  1. 3D 栅格化——通过对带注释的原始日志进行轻量级重投影,快速生成新视点与恢复机动,实现多样化、大规模增广;
  2. Raster-to-Real 对齐——在特征空间将栅格化样本与真实图像对齐,确保合成数据在实车部署中有效迁移。

二者协同,构成可扩展且鲁棒的闭环端到端驾驶数据pipeline。

Waymo基于视觉的端到端驾驶挑战赛第一名,RAP框架开源啦!3D 光栅化增强端到端规划图4
所提出的 RAP 概述。(a) 通过 3D 光栅化进行数据增强:带注释的驾驶日志通过跨智能体视图合成和面向恢复的扰动转换为大规模合成样本。(b) 光栅到真实对齐:成对的真实输入和光栅化输入由冻结图像编码器和可学习的特征投影器处理。空间级对齐使用 MSE 损失函数来对抗分离的光栅特征,而全局级对齐则使用梯度反转层和域分类器来增强域混淆。
  1. 面向恢复的扰动
    在已记录的专家轨迹上施加横向/纵向偏移与噪声,随后通过3D栅格化重新渲染,生成反事实场景,用于训练规划器在分布偏移时执行恢复。

  2. 跨智能体视角合成
    不再仅自 ego 轨迹渲染,而是在同一场景中将 ego 替换为其他交通参与者,并保持原相机参数不变,从而无需额外传感器即可获得多元视角的图像。结合面向恢复的扰动,该策略将数据集扩展至 50 余万个栅格化训练样本,全面覆盖多样视点、更丰富的交互以及罕见的恢复场景。

  3. 栅格-真实对齐(R2R)
    为弥合合成栅格与真实图像的域差异,提出 Raster-to-Real 对齐,在“空间级”与“全局级”双重粒度上强制特征一致。

  • 空间级:最小化真实-栅格配对特征在 token 维度的 L2 差异;
  • 全局级:引入 adversarial 域分类器,通过梯度反转使整体特征分布不可区分。
    二者联合,确保栅格增广在实车部署中有效迁移。

07

实验仿真

Waymo基于视觉的端到端驾驶挑战赛第一名,RAP框架开源啦!3D 光栅化增强端到端规划图5
NAVSIM v1 benchmark (navtest). Bold/underlined indicates the best/second-best.
Waymo基于视觉的端到端驾驶挑战赛第一名,RAP框架开源啦!3D 光栅化增强端到端规划图6
Public leaderboard for the NAVSIM v2 benchmark (navhard). Bold indicates the best result.
Waymo基于视觉的端到端驾驶挑战赛第一名,RAP框架开源啦!3D 光栅化增强端到端规划图7
Top-6 entries on the public leaderboard for the WOD Vision-based E2E Driving Challenge (up to September 2025).
Waymo基于视觉的端到端驾驶挑战赛第一名,RAP框架开源啦!3D 光栅化增强端到端规划图8
Closed-loop Results on Bench2Drive Benchmark (Jia et al., 2024).
Waymo基于视觉的端到端驾驶挑战赛第一名,RAP框架开源啦!3D 光栅化增强端到端规划图9
Ablation on recovery-oriented perturbations. Evaluation is conducted on NAVSIM v1 and v2.

08

总结

本文提出了 Rasterization Augmented Planning(RAP)——一种可扩展的端到端驾驶框架,它以轻量级 3D 栅格化与特征空间对齐替代昂贵的照片级渲染。通过面向恢复的扰动和跨智能体合成,RAP 将训练规模扩展至大规模反事实场景,同时保持语义与几何保真度。在四项基准上的大量实验表明,RAP 能持续提升闭环鲁棒性与长尾泛化能力,为端到端自动驾驶的规模化提供了一条实用且高效的途径。局限与未来工作:本方法仍局限于模仿学习范式,继承了因果混淆等问题。未来,我们计划将 3D 栅格化扩展为完整仿真器,以支持闭环强化学习,从而在离线演示之外实现更丰富的交互与策略改进。流程论文辅导

本文仅做学术分享,如有侵权,请联系删文。

3D视觉1V1论文辅导来啦!

Waymo基于视觉的端到端驾驶挑战赛第一名,RAP框架开源啦!3D 光栅化增强端到端规划图10

3D视觉学习圈子

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

Waymo基于视觉的端到端驾驶挑战赛第一名,RAP框架开源啦!3D 光栅化增强端到端规划图11

3D视觉全栈学习课程:www.3dcver.com

Waymo基于视觉的端到端驾驶挑战赛第一名,RAP框架开源啦!3D 光栅化增强端到端规划图12

3D视觉交流群成立啦,微信:cv3d001

Waymo基于视觉的端到端驾驶挑战赛第一名,RAP框架开源啦!3D 光栅化增强端到端规划图13

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
国航公布机舱锂电池自燃赔偿方案,小米中国区市场部总经理敲定,特斯拉拟取消实体钥匙卡,DS开源新模型,这就是今天的其他大新闻!
斯坦福具身智能大佬引用,Huggingface官方催更:北京人形开源WoW具身世界模型
可处理上万变量,攻克高维时序预测难题!华人团队开源模型、基准
快讯|美国公司推出Yogi硅胶人形机器人;TetherIA打造欠驱动开源机械手;2025中国机器人大赛暨RoboCup落幕等
开源模型TOP5,被中国厂商包圆了
AIR科研|X-VLA重磅开源,全面刷新机器人基准性能记录
宇树发布 H2 仿生人形机器人;DeepSeek 开源新视觉模型;国航公布「锂电池自燃事件」赔偿标准|极客早知道
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA
400元遥操95%机械臂!上海交大推出开源项目U-Arm,打造通用、低成本的人机遥操作接口
开源对机器人的价值,远超大模型时代的想象丨唐文斌深度对谈抱抱脸创始人
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号