NeurIPS 2025 Spotlight | FSDrive:革新自动驾驶VLA,迈向“视觉推理”新纪元

3D视觉工坊 2025-09-26 07:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:我爱计算机视觉

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

NeurIPS 2025 Spotlight | FSDrive:革新自动驾驶VLA,迈向“视觉推理”新纪元图1

随着视觉语言模型(VLM)在认知与推理方面展现出巨大潜力,将其应用于自动驾驶领域已成为前沿热点。然而,当前主流方法大多依赖离散的文本“思维链”(CoT),将复杂的动态驾驶场景抽象为语言描述和坐标,这一过程不仅会造成关键时空信息的损失,也引入了视觉到文本的模态鸿沟,限制了模型决策的精准性与可靠性。

当人类驾驶员面临复杂路况时,我们并不会在脑海中生成一段文字来描述,而是通过视觉化的场景预判和推演来做出决策。那么,我们能否赋予自动驾驶系统同样的能力,让它学会“视觉思考”

为此,我们荣幸地介绍我们被 NeurIPS 2025 接收为Spotlight 的最新工作—— FSDrive (FutureSightDrive)。该框架提出了一种创新的时空思维链(Spatio-temporal CoT),使模型能够直接在视觉空间中进行推理和规划,实现从“符号思考”到“视觉思考”的范式革新。

  • 论文标题:FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving
  • 项目主页:https://miv-xjtu.github.io/FSDrive.github.io/
  • 论文链接:https://arxiv.org/abs/2505.17685
  • 代码链接:https://github.com/MIV-XJTU/FSDrive

首先,请通过一段视频直观了解FSDrive的核心能力:

关键词:视觉-语言-动作模型 (VLA)、世界模型 (World Model)、视觉推理、时空思维链 (Spatio-temporal CoT)、自动驾驶

NeurIPS 2025 Spotlight | FSDrive:革新自动驾驶VLA,迈向“视觉推理”新纪元图2图1:不同思维链(CoT)对比。传统文本CoT(上)信息抽象;图文CoT(中)存在模态不一致问题;我们提出的时空CoT(下)以统一的视觉形式表征未来,更直观、信息更丰富。


核心方法:FSDrive

1. 时空思维链:从语言符号到视觉预演

传统VLM的决策链路是“观察→文本化→推理”,即将视觉感知压缩为语言符号,再进行逻辑推导。此模式存在两大缺陷:

  • 信息损耗:高维连续的视觉信息在转为低维离散的文本后,大量精细的几何与时空关系被忽略。
  • 模态鸿沟:跨模态转换容易引入语义偏差,影响推理的准确性。

FSDrive打破了这一桎梏,提出了时空思维链(Spatio-temporal CoT)。它不生成中间文本,而是直接生成一幅统一的“未来场景图”作为思考的载体。这幅图像巧妙地融合了时空信息:

  • 时间维度:通过生成未来场景的像素内容,预测场景的动态演化。
  • 空间维度:将未来的关键感知结果,如车道线3D障碍物框,以红色视觉标记的形式直接绘制在图像上,显式表达了未来的空间结构与约束。

这幅“思考图”承担了双重角色:

  • 作为世界模型 (World Model) :VLM通过生成该图像,对世界的未来状态(可行驶区域、物体位置、场景动态)进行综合预测。
  • 作为逆动力学模型 (Inverse Dynamics Model) :VLM基于当前观测和自己生成的“未来思考图”,反向推理出实现这一理想未来所应执行的最佳轨迹。

通过这种方式,FSDrive构建了一个端到端的视觉因果推理闭环(观察-思考-决策),全程在统一的视觉空间内完成,根除了模态转换引入的瓶颈。

2. 统一预训练范式:高效解锁VLM的“想象力”

为了让标准VLM具备生成“未来场景图”的“想象力”,我们设计了一套高效的训练范式:

  1. 统一视觉生成与理解:我们提出了一种新颖的预训练方法,仅需对现有VLM的词表进行微小扩展,便能在保留其强大语义理解能力的同时,低成本、高效率地“解锁”其视觉生成潜力。
  2. 由简到繁的渐进式生成:直接生成复杂的未来场景容易违反物理规律。为此,我们引入了渐进式生成策略。在预训练阶段,模型首先学习生成未来场景的“骨架”(代表物理约束的车道线和3D检测框),再基于骨架“填充”场景细节。这种由粗到精的生成过程,显著提升了预测结果的物理真实感与准确性。

NeurIPS 2025 Spotlight | FSDrive:革新自动驾驶VLA,迈向“视觉推理”新纪元图3图2:FSDrive整体框架。左侧为统一的预训练阶段,右侧为推理阶段。模型通过生成时空CoT进行视觉思考,并最终输出轨迹规划。


主要实验结果

我们在轨迹规划、未来帧生成和场景理解等多个基准上对FSDrive进行了全面评估,结果验证了其卓越性能。

1. 轨迹规划性能 SOTA

在nuScenes数据集的轨迹规划任务中,FSDrive取得了业界领先(SOTA)的性能。如下表所示,无论是否使用自车状态,FSDrive在L2误差碰撞率等核心安全指标上均表现出色,充分证明了“视觉思考”对于提升规划安全性和准确性的关键作用。

NeurIPS 2025 Spotlight | FSDrive:革新自动驾驶VLA,迈向“视觉推理”新纪元图4
规划性能对比

2. 高质量的未来场景生成

FSDrive不仅是优秀的规划者,也是一个高质量的世界模型。如下表所示,尽管FSDrive采用计算效率更高的自回归方式生成未来,但其生成图像的FID指标甚至优于多种专用的扩散模型,证明了我们所提预训练范式的有效性。

NeurIPS 2025 Spotlight | FSDrive:革新自动驾驶VLA,迈向“视觉推理”新纪元图5
生成质量对比

3. 视觉生成与理解能力兼得

赋予模型生成能力是否会削弱其原有的理解能力?实验给出了否定答案。在DriveLM基准测试中,FSDrive在多项问答和描述任务上均取得优异成绩,表明我们的框架成功实现了视觉生成理解能力的协同增强。

NeurIPS 2025 Spotlight | FSDrive:革新自动驾驶VLA,迈向“视觉推理”新纪元图6
场景理解能力评估

4. 可视化分析

时空思维链的价值在可视化结果中得到了直观体现。如下图所示,通过生成包含未来车道线和障碍物位置的“思考”图像,FSDrive能够提前预见潜在的碰撞风险,并规划出更为安全的避让轨迹,展现出强大的视觉因果推理能力。

NeurIPS 2025 Spotlight | FSDrive:革新自动驾驶VLA,迈向“视觉推理”新纪元图7
可视化分析

总结与展望

本文提出了FSDrive,一个基于时空思维链的自动驾驶新框架,其核心是赋予视觉语言模型进行“可视化思考”的能力。通过将未来预测、感知与规划统一在图像这一单一模态下进行推理,FSDrive有效消除了跨模态转换带来的信息鸿沟,建立了一套与物理世界更直接关联的端到端视觉推理流程。我们提出的统一预训练范式和渐进式生成策略,也为高效激活VLM的视觉生成能力提供了新的思路。

局限性:考虑到实时性,当前工作仅生成前视视角的未来帧。未来的研究可探索生成环视图像,以实现更全面的环境感知和更安全的驾驶决策。

我们相信,FSDrive通过建立像素级的环境关联而非依赖抽象的语言符号,为自动驾驶技术迈向更高级的视觉推理阶段提供了坚实的一步。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉硬件,官网:www.3dcver.com

NeurIPS 2025 Spotlight | FSDrive:革新自动驾驶VLA,迈向“视觉推理”新纪元图8

3D视觉学习圈子

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

NeurIPS 2025 Spotlight | FSDrive:革新自动驾驶VLA,迈向“视觉推理”新纪元图9

3D视觉全栈学习课程:www.3dcver.com

NeurIPS 2025 Spotlight | FSDrive:革新自动驾驶VLA,迈向“视觉推理”新纪元图10

3D视觉交流群成立啦,微信:cv3d001

NeurIPS 2025 Spotlight | FSDrive:革新自动驾驶VLA,迈向“视觉推理”新纪元图11

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IP
more
优艾智合赴港IPO :冲刺“移动操作机器人第一股”
NeurIPS 2025 Spotlight | FSDrive:革新自动驾驶VLA,迈向“视觉推理”新纪元
iPhone16ProMax,突然又火了!
iPhone17ProMax入手一周,真实体验把我整不会了!
iPhone17,拒绝翻车!
今日最黑:安卓IP
首批iPhone17ProMax今年卖疯了,也突然给我看傻了!
iPhone17系列国内首周销量出炉!Pro仍是大头
低空经济好风来!终止A股科创板IPO三年多后,农业无人机“老二”极飞机科技向港交所递交IPO申请,或成为“农业无人机第一股”
摩尔线程IPO过会
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号