来源:深蓝AI
过去十年,自动驾驶研究可谓风起云涌——从最初的感知与定位,到如今的端到端驾驶与规划决策,技术体系已经从“能看懂路”逐步走向“能自己开”。
这一路上,计算机视觉、传感器融合、轨迹预测、行为建模、规划控制、强化学习等方向齐头并进,形成了一个完整而庞大的智能驾驶生态。
为了帮助读者快速了解这一领域的发展脉络,我们精选了十篇在过去十余年中引用量高、影响力大、代表性强的关键论文。
这十篇论文几乎串联起了自动驾驶学术研究的主线,无论你是刚入门的学习者,还是希望重新梳理自动驾驶研究脉络的从业者,相信这份“十篇必读”都能帮你快速建立起对整个领域的全景认知。
Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite
📈 引用量:18,995
-
主要内容:
KITTI数据集的大名相信各位读者已经如雷贯耳,但它最初的论文可能许多读者小伙伴还没有真正读过,实际上,KITTI 数据集是由德国卡尔斯鲁厄理工学院与丰田技术研究院联合发布,是自动驾驶视觉研究的里程碑工作。
论文提出了一个真实道路场景下的多任务视觉基准套件,涵盖立体视觉、光流估计、视觉里程计/SLAM 和 3D 目标检测等核心任务。KITTI 采集自搭载多相机、激光雷达和高精定位系统的自动驾驶平台,共包含超过 20 万个 3D 标注和 39.2 公里的驾驶序列。
作者通过比较发现,许多在室内数据集(如 Middlebury)上表现优异的算法在真实户外环境中性能骤降,凸显了从实验室走向现实世界的挑战。KITTI 的诞生极大推动了自动驾驶计算机视觉算法的发展,也成为后续几乎所有相关研究的标准测试基准。
-
代表意义:
这篇论文代表了自动驾驶数据集与评测体系的奠基方向。其高引用源于它提供了一个统一、真实且可复现的视觉基准平台。
-
链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6248074

图1|KITTI数据集为自动驾驶的感知、SLAM、深度估计等研究奠定了实验基础,是自动驾驶研究名副其实的“起点之一
nuScenes: A Multimodal Dataset for Autonomous Driving
📈 引用量:8819
-
主要内容:
如果说 KITTI 是自动驾驶视觉研究的“起点”,那么 nuScenes 则是多模态感知时代的“里程碑”。由 nuTonomy(后被 APTIV 收购)团队发布的 nuScenes 数据集,是首个真正覆盖全车感知系统的公开基准——包含 6 个摄像头、5 个毫米波雷达和 1 个激光雷达,提供了完整的 360° 视野。
数据集中共包含 1000 段驾驶场景,每段约 20 秒,带有针对 23 类物体与 8 种属性 的 3D 标注,总计标注数量是 KITTI 的 7 倍、图像数量是其 100 倍。作者还设计了新的 3D 检测与跟踪评估指标,并给出了多种基线算法。它的出现让研究者第一次能够系统地研究 图像、激光雷达、雷达的融合感知与跟踪问题,为多传感器融合学习奠定了坚实基础。
-
代表意义:
这篇论文代表了自动驾驶多模态感知与数据基准的成熟阶段。其高引用源于它提供了首个全传感器、高质量标注的真实驾驶数据集,让后续的大规模感知算法、BEV 表征、3D 检测和追踪研究都有了共同的实验基准。
-
链接:https://openaccess.thecvf.com/content_CVPR_2020/papers/Caesar_nuScenes_A_Multimodal_Dataset_for_Autonomous_Driving_CVPR_2020_paper.pdf

图2|nuScenes同时包含六个方向的摄像头图像、激光雷达点云、雷达回波以及人工标注的语义地图。最下方是由人工撰写的场景描述,体现了该数据集在视觉、几何与语义层面的完整性
Scalability in Perception for Autonomous Driving: Waymo Open Dataset
📈 引用量:4432
-
主要内容:
如果说 KITTI 开启了自动驾驶视觉研究的时代,nuScenes为自动驾驶的多模态感知铺平了道路,那么Waymo Open Dataset 则将它推向了工业级的规模与复杂度。这项由 Waymo(Google 旗下自动驾驶公司)发布的工作,构建了一个前所未有的大规模高质量感知数据集,涵盖 1150 个真实驾驶场景,每个场景持续约 20 秒,并包含严格时间同步的 多相机与激光雷达数据。
与以往数据集不同,Waymo 在采集上实现了多地理区域、多天气、多交通密度的覆盖,其多样性比之前最大的公开数据集高出 15 倍。所有帧都具备精确的 2D 与 3D 边界框标注,并维持跨帧一致的目标 ID,用于检测与跟踪任务。论文还系统分析了数据规模与跨地域泛化对 3D 检测性能的影响,并提供了强力基线模型。
Waymo Open Dataset 的发布,让研究者第一次能在与真实自动驾驶车队数据接近的规模上训练与验证模型,为数据驱动的自动驾驶感知奠定了新标准。
-
代表意义:
这篇论文代表了自动驾驶感知研究的规模化与工程化方向。它高引用的原因在于,Waymo Open Dataset 不仅提供了高质量、多样化的工业级数据基础,还极大推动了 3D 检测、跨地域泛化与端到端感知算法的研究,是目前最具影响力的感知基准之一。
-
链接:https://openaccess.thecvf.com/content_CVPR_2020/papers/Sun_Scalability_in_Perception_for_Autonomous_Driving_Waymo_Open_Dataset_CVPR_2020_paper.pdf

图3|图中展示了 Waymo Open Dataset 中的激光雷达标注示例:黄色表示车辆、红色为行人、蓝色为交通标志、粉色为骑行者。精细的多类别标注和高密度点云信息,使其成为验证自动驾驶感知算法性能的黄金标准
后台私信1124,领取10篇自动驾驶高引论文包。
CARLA: An Open Urban Driving Simulator
📈 引用量:8473
-
主要内容:
在现实世界中验证自动驾驶系统,成本高昂且风险巨大。而 CARLA(Car Learning to Act) 的诞生,让研究者第一次拥有了一个可开放定制、可复现实验的城市级自动驾驶仿真平台。
由 Intel Labs、Toyota Research Institute 和巴塞罗那计算机视觉中心联合开发,CARLA 从零开始搭建了一个开放源码的城市场景模拟器,提供了大量可自由使用的城市道路、建筑物、行人、车辆等数字资产,并支持用户灵活配置 传感器套件(摄像头、激光雷达等)和天气、光照等环境条件。
作者还利用 CARLA 对比了三种驾驶策略:传统模块化控制、基于模仿学习的端到端驾驶,以及基于强化学习的策略模型。通过多难度场景的测试,CARLA 展示了不同算法的优缺点,也证明了仿真环境在算法训练与评估中的重要作用。如今,从学术论文到工业测试,CARLA 已成为自动驾驶研究的“虚拟试验场”。
-
代表意义:
这篇论文代表了自动驾驶仿真与虚拟验证方向。其高引用源于 CARLA 提供了开放、可重现且功能完备的仿真平台,让端到端驾驶、强化学习、规划控制等算法都能在统一环境中测试与比较,成为后续研究最广泛使用的模拟标准。
-
链接:https://proceedings.mlr.press/v78/dosovitskiy17a/dosovitskiy17a.pdf

图4|图中展示了 CARLA 场景在不同天气下的效果:从晴朗白天到雨后湿地、再到傍晚夕阳。多样的光照与气候变化,体现了该平台支持的高自由度环境控制,也验证了它在多场景鲁棒性研究中的重要价值
Deep Reinforcement Learning for Autonomous Driving: A Survey
📈 引用量:3036
-
主要内容:
在深度学习席卷视觉和感知领域之后,强化学习(Reinforcement Learning, RL)成为让自动驾驶系统“学会自己开”的关键研究方向。这篇由多位研究者联合撰写的综述系统梳理了 深度强化学习(DRL)在自动驾驶中的应用版图。
论文首先回顾了 RL 与 DRL 的核心算法体系,包括值函数方法(DQN 系列)、策略梯度(PPO、SAC)以及模仿学习、逆强化学习等相关分支。随后,作者以驾驶任务为线索,将 DRL 应用划分为多个子领域:行为决策、轨迹规划、控制执行、以及多智能体交互。
同时,文章也深刻讨论了强化学习在现实自动驾驶落地中面临的挑战——如高维状态空间、样本效率低、现实不可复现性和安全约束问题。作者指出,仿真环境与迁移学习将在未来成为强化学习走向实车应用的关键桥梁。
可以说,这篇综述不仅是一份算法总结,更是一张“强化学习驱动自动驾驶智能决策”的路线图。
-
代表意义:
这篇论文代表了强化学习与智能决策在自动驾驶中的发展方向。其高引用源于它系统性地总结了 DRL 在自动驾驶中的应用场景与挑战,成为入门研究者和算法开发者的重要参考,也为后续安全 RL、模仿强化学习等方向提供了理论框架。
-
链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9351818

图5|图中展示了现代自动驾驶系统的主要组成模块:从场景理解(感知)、到决策与规划,再到执行控制。强化学习在其中的角色,是让整个系统通过“试错与反馈”不断优化决策策略,从而实现端到端的自我学习驾驶智能
Multi-View 3D Object Detection Network for Autonomous Driving
📈 引用量:4271
-
主要内容:
在自动驾驶的早期阶段,如何让机器同时理解“激光雷达的深度”与“图像的语义”,一直是感知研究的核心难题。MV3D(Multi-View 3D Network)由清华大学与百度联合提出,开创性地提出了一种多视角融合的 3D 目标检测框架。
它将稀疏的激光点云分别投影为 鸟瞰图(BEV)和前视图(Front View),再结合摄像头图像,共同输入神经网络进行特征提取与融合。模型由两个子网络组成:一个负责从 BEV 图生成 3D 检测候选框,另一个通过“深度融合模块”将来自多视角的区域特征进行交互和联合预测。
在 KITTI 数据集上,MV3D 将 3D 检测和定位精度分别提升约 25% 和 30%,显著领先同期方法。这项工作首次证明了多模态融合能显著提升三维感知的精度与稳定性,也为后来 BEV-based 与 Transformer 融合方法奠定了基础。
-
代表意义:
这篇论文代表了自动驾驶感知中的多视角融合与 3D 检测方向。其高引用来自于它是最早系统地将激光雷达与图像融合的深度学习框架。
-
链接:https://openaccess.thecvf.com/content_cvpr_2017/papers/Chen_Multi-View_3D_Object_CVPR_2017_paper.pdf

图6|图展示了 MV3D 的整体结构:网络同时接收激光雷达的鸟瞰图、前视图以及相机图像输入,先从 BEV 图中生成 3D 物体候选框,再将这些候选区域投影到不同视角,通过深度融合网络整合多模态特征,最终完成类别识别与方向感知的 3D 框回归
后台私信1124,领取10篇自动驾驶高引论文包。
DeepDriving: Learning Affordance for Direct Perception in Autonomous Driving
📈 引用量:2636
-
主要内容:
在深度学习刚开始进入自动驾驶领域的年代,普林斯顿大学的 Jianxiong Xiao(萧健雄) 团队提出了一个极具前瞻性的想法:让模型直接“看懂路”。这就是 DeepDriving。
当时主流方法分为两类:一类是“中介感知”(mediated perception),先识别物体再决策;另一类是“行为反射”(behavior reflex),直接把图像输入映射成控制指令。而 DeepDriving 走了一条中间路线——直接感知(Direct Perception)。
它不是识别一切,也不是直接输出油门转向,而是学习一组能表达驾驶场景关键“可供性(Affordance)”的指标,例如车道距离、前车距离、车速差等。模型通过卷积神经网络从图像中直接估计这些关键指标,再由一个简单的控制器决策驾驶行为。
作者在虚拟驾驶游戏和 KITTI 数据集上训练与测试,结果表明模型能在多样化的场景中稳定驾驶,并成功将游戏中学到的视觉线索迁移到真实道路场景中——这在当时是一个极具突破性的结果。
-
代表意义:
这篇论文代表了自动驾驶中“直接感知与可供性学习”方向。它高引用的原因在于,它首次提出了将深度学习用于从视觉到驾驶决策的直接映射思想,是端到端驾驶与“感知即控制”理念的源头之一,也为后来的模仿学习、端到端强化学习研究奠定了理论基础。
-
链接:https://openaccess.thecvf.com/content_iccv_2015/papers/Chen_DeepDriving_Learning_Affordance_ICCV_2015_paper.pdf

图7|图展示了论文提出的可供性表示方式:系统在车道线系统与标记系统之间建模“可行区域”,通过重叠区实现平滑换道。这样的抽象让模型能够从复杂的视觉输入中提炼出对驾驶最关键的几何与语义信息,实现自然且连贯的驾驶控制
Object Scene Flow for Autonomous Vehicles
📈 引用量:2925
-
主要内容:
在自动驾驶早期的研究中,如何让机器不仅“看见”物体,还能“理解”它们的运动,是一项极具挑战的问题。来自德国汉诺威大学的 Moritz Menze 与 Andreas Geiger(也是 KITTI 的作者)提出了这一开创性的工作——Object Scene Flow for Autonomous Vehicles。
论文首次提出以“对象级场景流”(Object Scene Flow)的方式去估计 3D 运动:通过假设场景可以分解为若干独立运动的刚体物体,将每个物体的运动参数与对应的 3D 超像素平面联合建模,从而在结构化层面上理解场景动态。
这种刚体 + 超像素 + CRF(条件随机场)的组合,使得模型既能估计像素级运动,又能自动分割出独立的动态目标。作者还基于 KITTI 原始数据手动构建了 400 个带真实运动标注的动态场景数据集,填补了当时缺乏真实 3D 运动真值的空白。这项工作在鲁棒性与物体层次理解上都具有里程碑意义。
-
代表意义:
这篇论文代表了自动驾驶中动态场景理解与3D运动估计方向。其高引用源于它首次提出了“对象级场景流”概念,并提供了带真值标注的数据基准,为后续基于光流、场景分割及动态建图的研究奠定了理论和数据基础。
-
链接:https://openaccess.thecvf.com/content_cvpr_2015/papers/Menze_Object_Scene_Flow_2015_CVPR_paper.pdf

图8|图中展示了该论文提出的场景流估计效果:从上到下依次为动态物体分割结果(背景透明)、估计的三维运动流场,以及对应的真值流场。可以看到,模型不仅区分出独立运动的目标,还精确捕捉了各物体的三维位移方向
BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers
📈 引用量:2018
-
主要内容:
在多摄像头感知逐渐取代激光雷达的趋势下,BEVFormer 的出现几乎重新定义了视觉感知在自动驾驶中的地位。来自南京大学与上海人工智能实验室的研究团队提出了这套方法,首次通过 时空 Transformer 实现了从多摄像头图像到鸟瞰图(BEV)特征的高效建模。
它引入了一个关键概念——BEV Query(鸟瞰查询点)。这些查询点通过「空间交叉注意力」在多个摄像头视角中查找并聚合对应区域特征,从而获得空间一致的全局表示;同时,利用「时间自注意力」将前一时刻的 BEV 信息与当前帧进行融合,实现了时序上的连续感知。
BEVFormer 在 nuScenes 测试集上达到了 56.9% 的 NDS,比此前最优方法高出 9 个百分点,性能已经可以媲美激光雷达方案。它不仅在低能见度下的速度估计更准确,还让纯视觉方案第一次接近了多模态感知的上限。
-
代表意义:
这篇论文代表了纯视觉 BEV 感知与 Transformer 架构方向。其高引用源于它提出了统一的时空 Transformer BEV 框架,彻底改变了研究者处理多摄像头感知的方式,并成为后续 各大BEV-based方法的直接灵感来源。
-
链接:https://arxiv.org/pdf/2203.17270

图9|图中展示了 BEVFormer 的核心思想:系统以多摄像头图像为输入,利用「空间注意力」聚合各视角的关键区域特征,并通过「时间注意力」与上一时刻的 BEV 表征进行融合。这样的设计让网络能够像“记忆”一样理解场景变化,实现稳定的时空感知
Planning-oriented Autonomous Driving
📈 引用量:1103
-
主要内容:
在自动驾驶的系统设计中,感知、预测、规划往往被视为三个独立模块:先识别,再预测,再决策。然而,这种“串行式结构”会导致误差层层累积,难以实现真正的智能驾驶。来自上海 AI 实验室的 OpenDriveLab 团队提出了全新的 UniAD 框架,将整个自动驾驶任务栈重新组织为一个以规划为核心的统一网络。
不同于传统多任务网络仅在特征层共享 backbone,UniAD 将感知、跟踪、预测、交互建模与规划全部纳入统一的 Transformer 结构,通过 Query 机制 让各任务之间直接通信。模型在训练过程中并非仅优化单一子任务,而是始终以最终的规划结果为目标进行端到端优化。
在 nuScenes 基准上,UniAD 在感知、预测和规划三大任务上全面超越以往 SOTA,不仅实现了性能提升,也体现了“规划驱动的系统协同”这一全新理念。这项工作为自动驾驶研究开辟了一个重要方向:让系统围绕最终决策目标自我协调。
-
代表意义:
这篇论文代表了端到端统一规划导向的自动驾驶方向。其高引用源于它首次系统性地将感知、预测与规划整合进同一 Transformer 框架,为后续基于Transformer架构的自动驾驶E2E方法奠定了方法论基础,也标志着自动驾驶由任务堆叠走向“全栈智能”的转折点。
-
链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Hu_Planning-Oriented_Autonomous_Driving_CVPR_2023_paper.pdf

图10|下图展示了自动驾驶系统架构的演变:(a) 传统工业方案中,各模块独立运行;(b) 多任务学习框架共享 backbone 但仍分离决策;(c.1–c.2) 早期端到端方案仅优化部分组件;(c.3) UniAD 则主张以规划为核心,重新组织前序任务,使整个系统协同指向驾驶决策目标——真正实现“规划导向”的自动驾驶架构
后台私信1124,领取10篇自动驾驶高引论文包。
回望这些年的研究进程,可以发现自动驾驶技术正经历从“感知驱动”向“决策驱动”的转变。从早期依赖规则与几何,到如今结合 Transformer、大模型和端到端规划,研究的重点正逐渐转向系统协同、泛化能力和安全验证。未来的自动驾驶,或许不再只是“让车自己跑”,而是让系统能像人一样理解场景、推理意图、做出合理的决策。
无论是感知层的精确度,还是决策层的智能化,这些经典论文都曾为今天的突破铺路。它们的思想与框架仍在被不断延伸、重塑,也正构成下一代智能驾驶系统的知识基石。
审编|阿蓝