NeurIPS 2025 Spotlight | FSDrive:让自动驾驶VLA「看见未来」的时空思维链规划范式

3D视觉工坊 2025-09-23 07:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

写在前面

视觉-语言-动作模型(VLA)正快速渗透到自动驾驶研究之中。但现有方法常借助离散文本的Chain-of-Thought(CoT)做中间推理:把连续、高维的视觉信息压缩为语言描述与坐标等符号。这种“视觉→文本→推理”的路径像是强迫老司机用文字解释直觉,必然带来时空关系的歧义与细节损耗,限制了在复杂动态场景中的决策可靠性。

我们提出 FSDrive(FutureSightDrive),一个以时空思维链(Spatio-temporal CoT)为核心的新型端到端规划框架,让模型像人类驾驶员一样,在统一的视觉空间中“先看见未来,再做出决策”,真正实现可视化思考。

  • 项目主页:https://miv-xjtu.github.io/FSDrive.github.io/
  • 论文链接:https://arxiv.org/abs/2505.17685
  • 代码仓库:https://github.com/MIV-XJTU/FSDrive
  • 关键词:视觉-语言-动作模型(VLA)、世界模型(World Model)、视觉因果推理、时空思维链(Spatio-temporal CoT)、自动驾驶
资讯配图
图1:不同CoT形式的直观对比。文本CoT(上)信息抽象;图文CoT(中)模态不一致;时空CoT(下)在统一图像中同时表达未来的空间与时间关系,更直接也更充分

研究动机与挑战

  • 信息损耗:视觉感知的连续性与高维度在文本符号化过程中被压缩,细粒度细节与时空约束难以完整保留。
  • 模态鸿沟:视觉与文本往返转换引入语义偏差,影响在复杂路况下的推理精度与可解释性。

FSDrive的核心设想是:用“统一的未来图像”作为中间推理载体,把未来的空间结构(车道线、3D障碍物)与时间演化(未来像素帧)在同一张图上共同表达,支持后续更可靠的规划决策。

方法概览:从“文字思考”到“视觉思考”

FSDrive把VLM/VLA同时作为世界模型与逆动力学模型,构成“观察-想象-决策”的闭环:

  • 世界模型(预测未来):生成一幅统一的“未来帧”。其中,红色的车道线与3D检测框呈现未来的空间关系;未来像素帧呈现场景的时间演化。
  • 中间推理(时空CoT):这张“思考图”作为显式的中间步骤,承载可视化的因果推理。
  • 逆动力学(规划轨迹):基于当前观测与生成的未来图像,反推实现该未来状态的最优轨迹。

这种统一视觉范式避免了跨模态转换引发的语义落差,让“看见—思考—决策”在像素空间端到端闭合。

核心创新

  • 统一视觉形式的时空思维链:将未来感知结果(车道线、3D框)直接绘制在未来像素帧上,在单一图像中同时编码时序变化与空间约束。
  • 低成本激活生成能力的统一预训练:在不改动原有MLLM架构的前提下,仅扩展词表以纳入视觉token,保留理解能力的同时高效解锁图像生成。
  • 渐进式(由易到难)生成策略:先生成物理骨架(车道线、3D框)以注入静/动态物理先验,再补充细节像素,显著提升预测的物理可信度。
  • 端到端视觉因果推理:在像素空间直接进行因果关联学习,减少符号抽象带来的信息缺失。
资讯配图
图2:FSDrive整体流程。左:统一预训练(理解+生成);右:推理时生成时空CoT进行可视化思考,并输出轨迹规划。

训练范式与实现要点

  • 保持原生MLLM结构:直接在词表中加入VQ-VAE视觉token,使模型具备预测图像token并经解码器还原为像素的能力,最大化利用已有权重与世界知识。
  • 统一预训练(理解+生成):
    • 理解侧:采用VQA等任务保持对驾驶场景的语义理解与问答能力。
    • 生成侧:自回归预测未来帧token,利用海量视频中的天然未来帧学习场景演化规律。
    • 渐进式生成:在少量带注释数据上先学未来车道线与3D检测(物理骨架),再在其约束下补全未来像素细节。
  • 推理阶段:不再分开生成各子结果,而是将“未来像素+红色车道线+3D框”融合为一张统一的未来图像,作为时空CoT驱动轨迹规划。
  • 广泛适配:可基于Qwen2-VL、LLaVA等现成MLLM初始化,避免从零训练带来的高昂成本。

实验速览

我们在nuScenes与DriveLM等基准上,对轨迹规划、未来场景生成与场景理解进行了系统评估。

  • 轨迹规划(nuScenes)
    • 在L2误差与碰撞率等关键指标上,FSDrive在含/不含自车状态两种设置下均具备强竞争力,验证“视觉思考”对规划安全性的显著促进。
    • 相较以离散文本为中间推理的做法,时空CoT有效降低碰撞率,体现出对潜在风险的前瞻识别能力。
资讯配图
规划性能对比
  • 未来场景生成质量
    • 即便采用更高效的自回归生成范式,FSDrive的FID仍优于多种专用扩散基线,表明统一预训练与渐进式生成在质量与效率上的平衡优势。
资讯配图
生成质量对比
  • 场景理解(DriveLM GVQA)
    • 在多项语言与问答指标上取得优异成绩,说明“生成能力的引入”并未稀释理解能力,反而通过统一预训练实现协同增益。
资讯配图
场景理解能力评估
  • 可视化分析
    • 通过生成包含未来车道线与障碍物位置的“思考图像”,FSDrive能够提前预见危险并规避,从而规划出更安全的行驶轨迹。
资讯配图
vis.jpg

结语

FSDrive(入选 NeurIPS 2025 Spotlight)提出了一种“在图像里思考”的自动驾驶新范式:以统一的图像作为中间时空思维链,联结未来像素与未来感知结果,实现端到端的视觉因果推理。我们提出的统一预训练与渐进式生成策略,以极低的改动成本激活了MLLM的视觉生成能力,并在多个任务上带来实证收益。与依赖抽象语言符号的传统路径不同,FSDrive将推理锚定在更贴近物理世界的像素层面,推动自动驾驶朝“可视化推理”的新阶段演进。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉1V1论文辅导来啦!

资讯配图

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

3D视觉全栈学习课程:www.3dcver.com

资讯配图

3D视觉交流群成立啦,微信:cv3d001

资讯配图
添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IP
more
iPhone17ProMax首销当日,是真的卖疯了!
会议预告 | HiPi ICTS 2025 集成电路测试技术研讨会,测试助力数智化创新
iPhone17ProMax翻车评测:把全体果粉都看傻了!
NeurIPS 2025 Spotlight | FSDrive:让自动驾驶VLA「看见未来」的时空思维链规划范式
苹果又要放大招?20周年iPhone用上最强屏幕,更薄更亮!
小米17系列手机9月25日发布;iPhone 17标准款需求超预期,苹果已增产;罗永浩:个人债务五年前就还完了|极客早知道
iPhone二十周年纪念款将采用更薄更亮OLED显示屏
别买 iPhone 17 了,接下来发布的国产新机一个比一个好看!
曝 iPhone 20 周年版屏幕将更亮/罗永浩:将评测预制菜/廉价版 Model Y 曝光,配置大幅精简
华为FreeClip 2 耳夹耳机:让「戴着不摘」成为新的使用习惯
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号