Waymo基于视觉的端到端驾驶挑战赛第一名，RAP框架开源啦！3D 光栅化增强端到端规划

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：智驾机器人技术前线

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

Waymo基于视觉的端到端驾驶挑战赛第一名，RAP框架开源啦！3D 光栅化增强端到端规划图1

论文信息

论文标题：RAP: 3D Rasterization Augmented End-to-End Planning
作者：Lan Feng and Yang Gao and Eloi Zablocki and Quanyi Li and Wuyang Li and Sichao Liu and Matthieu Cord and Alexandre Alahi
项目地址：https://alan-lanfeng.github.io/RAP/
论文链接：https://arxiv.org/pdf/2510.04333

成就

Waymo基于视觉的端到端驾驶挑战赛第一名，RAP框架开源啦！3D 光栅化增强端到端规划图2 — 算法排名

摘要

模仿学习在端到端驾驶中的训练仅依赖于专家演示。一旦闭环部署，这类策略缺乏“恢复”数据：微小误差无法被纠正，会迅速累积成致命失误。一个有前景的方向是在已记录轨迹之外生成替代视角与轨迹。已有研究尝试通过神经渲染或游戏引擎构建照片级数字孪生，但这些方法速度极慢、成本极高，因而仅用于评估。本文指出，对于端到端规划器的训练，照片级真实感并非必需；关键在于语义保真与可扩展性——驾驶依赖几何与动力学，而非纹理或光照。基于此，我们提出 3D Rasterization：用轻量级带语义标注图元的栅格化替代昂贵渲染，支持反事实恢复机动与跨智能体视角合成等增广。为将这些合成视角有效迁移到真实部署，我们引入 Raster-to-Real 特征空间对齐，在特征层面弥合仿真-现实鸿沟。二者共同构成 Rasterization Augmented Planning（RAP）——一套可扩展的规划数据增广流水线。RAP 在闭环鲁棒性与长尾泛化上达到 SOTA，在 NAVSIM v1/v2、Waymo Open Dataset 视觉端到端驾驶、Bench2Drive 四大基准均排名第一。实验表明，轻量栅格化配合特征对齐足以规模化端到端训练，为照片级渲染提供了务实替代方案。

介绍

近期端到端驾驶研究普遍依赖基于神经渲染或游戏引擎构建的照片级数字孪生，这类方法追求像素级真实感，却计算繁重、难以扩展。本文证明，训练鲁棒规划器并不需要照片级真实感。我们提出的 Rasterization Augmented Planning（RAP）利用轻量级 3D 栅格化生成语义保真的增广数据，并通过特征空间对齐弥合仿真-现实鸿沟。该设计实现数据合成的规模化，并在闭环驾驶中显著提升鲁棒性与泛化能力。

Waymo基于视觉的端到端驾驶挑战赛第一名，RAP框架开源啦！3D 光栅化增强端到端规划图3 — 端到端驾驶的渲染范式对比。基于神经渲染或游戏引擎的方法（左）试图在像素空间最小化仿真-现实差距，但计算代价高昂。相较之下，我们的方法（右）采用 3D 栅格化，具备可扩展性与完全可控性，并在特征空间将栅格化输入与真实图像对齐。

主要贡献

可扩展的 3D 栅格化pipeline：仅依赖标注信息，将几何图元投影至相机视角即可重建驾驶场景。
Raster-to-Real（R2R）对齐模块：结合蒸馏与对抗自适应，在特征空间桥接栅格输入与真实图像。
3D 栅格化增强端到端规划框架（RAP）：通过反事实场景生成与跨智能体视角合成增广模仿学习，在多个基准测试中实现 SOTA 的闭环鲁棒性与长尾泛化能力。

方法概述

RAP 由两大核心模块组成：

3D 栅格化——通过对带注释的原始日志进行轻量级重投影，快速生成新视点与恢复机动，实现多样化、大规模增广；
Raster-to-Real 对齐——在特征空间将栅格化样本与真实图像对齐，确保合成数据在实车部署中有效迁移。

二者协同，构成可扩展且鲁棒的闭环端到端驾驶数据pipeline。

Waymo基于视觉的端到端驾驶挑战赛第一名，RAP框架开源啦！3D 光栅化增强端到端规划图4 — 所提出的 RAP 概述。(a) 通过 3D 光栅化进行数据增强：带注释的驾驶日志通过跨智能体视图合成和面向恢复的扰动转换为大规模合成样本。(b) 光栅到真实对齐：成对的真实输入和光栅化输入由冻结图像编码器和可学习的特征投影器处理。空间级对齐使用 MSE 损失函数来对抗分离的光栅特征，而全局级对齐则使用梯度反转层和域分类器来增强域混淆。

面向恢复的扰动
在已记录的专家轨迹上施加横向/纵向偏移与噪声，随后通过3D栅格化重新渲染，生成反事实场景，用于训练规划器在分布偏移时执行恢复。
跨智能体视角合成
不再仅自 ego 轨迹渲染，而是在同一场景中将 ego 替换为其他交通参与者，并保持原相机参数不变，从而无需额外传感器即可获得多元视角的图像。结合面向恢复的扰动，该策略将数据集扩展至 50 余万个栅格化训练样本，全面覆盖多样视点、更丰富的交互以及罕见的恢复场景。
栅格-真实对齐（R2R）
为弥合合成栅格与真实图像的域差异，提出 Raster-to-Real 对齐，在“空间级”与“全局级”双重粒度上强制特征一致。

空间级：最小化真实-栅格配对特征在 token 维度的 L2 差异；
全局级：引入 adversarial 域分类器，通过梯度反转使整体特征分布不可区分。
二者联合，确保栅格增广在实车部署中有效迁移。

实验仿真

Waymo基于视觉的端到端驾驶挑战赛第一名，RAP框架开源啦！3D 光栅化增强端到端规划图5 — NAVSIM v1 benchmark (navtest). Bold/underlined indicates the best/second-best.

Waymo基于视觉的端到端驾驶挑战赛第一名，RAP框架开源啦！3D 光栅化增强端到端规划图6 — Public leaderboard for the NAVSIM v2 benchmark (navhard). Bold indicates the best result.

Waymo基于视觉的端到端驾驶挑战赛第一名，RAP框架开源啦！3D 光栅化增强端到端规划图7 — Top-6 entries on the public leaderboard for the WOD Vision-based E2E Driving Challenge (up to September 2025).

Waymo基于视觉的端到端驾驶挑战赛第一名，RAP框架开源啦！3D 光栅化增强端到端规划图8 — Closed-loop Results on Bench2Drive Benchmark (Jia et al., 2024).

Waymo基于视觉的端到端驾驶挑战赛第一名，RAP框架开源啦！3D 光栅化增强端到端规划图9 — Ablation on recovery-oriented perturbations. Evaluation is conducted on NAVSIM v1 and v2.

总结

本文提出了 Rasterization Augmented Planning（RAP）——一种可扩展的端到端驾驶框架，它以轻量级 3D 栅格化与特征空间对齐替代昂贵的照片级渲染。通过面向恢复的扰动和跨智能体合成，RAP 将训练规模扩展至大规模反事实场景，同时保持语义与几何保真度。在四项基准上的大量实验表明，RAP 能持续提升闭环鲁棒性与长尾泛化能力，为端到端自动驾驶的规模化提供了一条实用且高效的途径。局限与未来工作：本方法仍局限于模仿学习范式，继承了因果混淆等问题。未来，我们计划将 3D 栅格化扩展为完整仿真器，以支持闭环强化学习，从而在离线演示之外实现更丰富的交互与策略改进。流程论文辅导

本文仅做学术分享，如有侵权，请联系删文。