ColaVLA:自动驾驶大模型,不一定非要把「思考过程」写成文字

机器之心 2026-04-02 20:10
ColaVLA:自动驾驶大模型,不一定非要把「思考过程」写成文字图1


过去两年,自动驾驶和大模型的结合越来越热。一个很自然的方向是:既然视觉语言模型已经具备很强的场景理解和推理能力,那能不能让它像人类司机一样,先理解环境、再做判断、最后输出轨迹?


这条路线听起来很合理,但真正落到自动驾驶上,很快就会遇到一个问题:很多方法虽然引入了大模型,却仍然把「推理」做成了文本链式推理。也就是说,模型要先生成中间解释,再把这些解释一步步转成动作或轨迹。这样做的优点是看起来 「更会思考」,但代价也非常明显:文本是离散 token,而轨迹是连续控制;文本推理还依赖自回归解码,速度慢、链路长,不太适合实时驾驶。


来自清华大学与香港中文大学 MMLab 的研究团队提出了全新的隐空间推理与层次化轨迹规划的 VLA 框架 --ColaVLA,论文已经被 CVPR2026 主会接收。


ColaVLA:自动驾驶大模型,不一定非要把「思考过程」写成文字图2




这篇论文给出的答案很直接:自动驾驶中的推理,不一定要写成文字


与其让模型「边说边想」,不如让它在统一潜空间里完成推理,再把结果直接交给动作规划器。这样既能保留 VLM 的语义先验和知识能力,又能绕开显式文本生成带来的延迟和表示错位。


整篇论文最重要的贡献,其实可以概括成两句话:第一,把推理从文本空间搬到潜空间;第二,把轨迹生成从串行过程改成分层并行过程。


ColaVLA:自动驾驶大模型,不一定非要把「思考过程」写成文字图3


一、核心思路:先「想清楚」,再「开出来」


ColaVLA 的整体框架由两个核心部分组成:



作者的目标不是简单把一个大模型接到规划器前面,而是重新定义「推理」和「动作」之间的接口,让二者真正对齐。


先看前半部分,也就是潜空间推理器。作者把它设计成一个很像人类司机的四步过程:



这四步看上去很直观,但真正巧妙的地方在于,它们都不是通过自然语言完成的,而是在统一潜空间中隐式完成。


第一步 Understand,是先整体看懂场景。模型会把多视角视觉信息、固定驾驶提示和 ego 车状态一起送入共享 VLM,先建立一个全局场景理解,而不是一上来就直接回归轨迹。


第二步 Recognize,是从大量视觉信息里筛出真正和当前驾驶动作相关的关键实体。这里论文设计了一个 ego-adaptive router,根据当前自车状态动态选择最重要的视觉 token,保留的通常是车道、邻近车辆、行人、交通灯这些安全关键线索,而不是无差别地处理整张图。


第三步 Rethink,则是在压缩后的关键信息上再做一次 “复核式推理”,并借助一组可学习的 meta-query 来表示不同高层驾驶策略。


最后一步 Decide,输出的也不是一句解释文本,而是一组面向动作生成的高层驾驶先验。这样一来,模型就不再需要把推理结果先翻译成自然语言,再从语言翻译回动作空间,而是直接完成从认知到策略的内部闭合。


ColaVLA:自动驾驶大模型,不一定非要把「思考过程」写成文字图4


二、真正落到动作层面,它的规划器为什么更合理?


很多自动驾驶方法的问题,不只是上游推理方式不合适,下游轨迹生成方式也未必真正符合驾驶动作的结构。有些方法一次性直接回归整条轨迹,虽然简单,但缺少层次;有些方法依赖复杂生成过程,虽然表达能力强,但效率和部署稳定性不一定理想。


ColaVLA 这里的思路很清晰:驾驶轨迹本来就是分层的,所以生成过程也应该分层


论文提出的 Hierarchical Parallel Planner 有三个关键词:



它不是把未来轨迹当作一个扁平输出,而是先确定粗粒度意图,再逐步补足中间细节。这更像真实驾驶员的决策方式:先想清楚「往哪去」,再决定「具体怎么走」。


同时,作者还设计了一个 causality-preserving 的注意力机制,保证不同尺度之间的信息流是从粗到细、逐层细化的,而不是相互泄漏。这样一来,多尺度结构就不只是形式上的分解,而是真正具有因果约束的轨迹生成过程。


更重要的是,这个 planner 可以在单次前向传播中并行完成多尺度、多模式轨迹解码,不用再像文本 CoT 那样一步一步串行生成。


ColaVLA:自动驾驶大模型,不一定非要把「思考过程」写成文字图5


三、实验结果说明了什么?


从结果上看,ColaVLA 最打动人的地方,不只是「指标更高」,而是它同时兼顾了精度、安全和效率。


1. Open-loop:不只是预测更准,而且更安全


在 nuScenes 的开环评测中,ColaVLA 在动作类方法里取得了最优综合表现,平均 L2 误差为 0.30 m,平均碰撞率为 0.23%。相比强基线 SOLVE-E2E,L2 进一步下降,碰撞率也明显降低。


这说明它输出的轨迹并不只是数值上更接近真值,而是在安全性层面也更优。


ColaVLA:自动驾驶大模型,不一定非要把「思考过程」写成文字图6


2. Closed-loop:真正体现方法价值的部分


在更关键的闭环评测 NeuroNCAP 中,ColaVLA 的平均得分达到 3.48,平均碰撞率降到 36.8%,明显优于多种前序方法。


论文特别指出,相比依赖文本推理、并使用额外数据的 ImpromptuVLA,ColaVLA 在不显式生成文本思维链的情况下,依然取得了更好的闭环表现。


这个结果很有说服力,因为它说明:对自动驾驶来说,更长、更复杂的文字推理链,并不一定能带来更好的真实驾驶行为;真正关键的,还是内部决策表征是否适合动作生成,以及规划器是否具有合理的因果结构。


ColaVLA:自动驾驶大模型,不一定非要把「思考过程」写成文字图7


3. 推理效率:它把「落地可能性」往前推了一步


效率上,ColaVLA 也给出了非常亮眼的结果。在扎实的工程优化后,它的在 H200 上的端到端推理延迟为 228 ms/frame,而对比的文本式方法整体快了 5 倍到 10 倍左右


这意味着,把推理从文本搬到潜空间,并不只是概念上更优雅,而是真的换来了实打实的速度收益。对于强调闭环和实时性的自动驾驶来说,这一点尤其关键。


四、消融实验最值得记住的几点


这篇论文的消融实验也比较完整,但最值得记住的其实只有四点。


第一,潜空间推理本身确实有效。只要加入 latent reasoning,模型的轨迹误差就会下降;再加入 rethink 阶段,效果还会进一步提升。这说明「先抓关键、再做复核」的认知链条不是叙事包装,而是真正有助于决策质量。


第二,分层并行规划器本身也很重要。即便把 reasoning 模块去掉,作者的 planner 在闭环上依然明显优于普通 MLP 头和 diffusion 头,说明它确实更符合真实驾驶动作的生成逻辑。


第三,关键 token 不是越多越好,而是平衡最好最重要。保留太少会丢信息,保留太多又会引入冗余,论文最终选择了一个在表达能力和效率之间更均衡的配置。


第四,最优的轨迹生成方式不是一次性回归整条轨迹,而是先确定关键点,再逐层补齐中间细节,这和驾驶动作本身的因果结构是对得上的。


五、这篇论文真正有价值的地方是什么?


如果只把 ColaVLA 看成「又一个自动驾驶模型」,其实低估了它。


我觉得这篇工作的更大意义在于,它提出了一个非常明确的判断:


自动驾驶中的推理,不一定需要显式写成文字


过去很多工作默认认为,大模型的优势来自「会解释」「会说话」「能输出思维链」。但 ColaVLA 给出的答案是:在自动驾驶这种连续控制任务里,更重要的也许不是「让模型把思考说出来」,而是「让模型在内部真正想清楚,并用更适合动作生成的方式表达出来」。


从这个角度看,它代表的是一种很值得重视的范式变化:



论文最后的结论也很清楚:把推理从文本迁移到潜空间,为自动驾驶中的知识驱动决策提供了一条更可扩展、也更现实的路径。


六、总结


如果要用一句话总结 ColaVLA,我会这样说:


它不是让自动驾驶大模型「更会说」,而是让它「更会在内部想清楚,再更快地开出来」


这篇论文最核心的贡献,不只是提出了一个新模块,也不只是刷新了几项指标,而是它证明了下面几件事:


  1. 自动驾驶里的推理,可以不依赖显式文本思维链;

  2. 潜空间推理同样可以保留高层驾驶决策能力;

  3. 分层并行、因果一致的规划器,更适合真实驾驶动作生成;

  4. 当推理形式和动作生成真正对齐时,系统才能同时获得更好的安全性、效率和闭环表现。


对于后续自动驾驶大模型的发展来说,这篇工作很可能代表着一个很值得继续深入的方向:


不是把大模型硬塞进自动驾驶,而是重新设计一种真正适合自动驾驶的大模型推理方式


ColaVLA:自动驾驶大模型,不一定非要把「思考过程」写成文字图8


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
大模型
more
智谱发布全球首款龙虾场景优化大模型GLM-5-Turbo
告别网页套壳,微软将为Win11打造纯原生应用;国际民航新规每人最多带2个充电宝;华为盘古大模型负责人离职;苹果iOS 27版Siri前瞻...
央视 3.15 曝光 AI 大模型「投毒」产业链;Meta 被曝裁员 20%;字节跳动暂停 Seedance 2.0 全球发布计划 | 极客早知道
林俊旸离职后首度发声:万字复盘,大模型下一站「智能体式思考」
英伟达推开源大模型Nemotron 3 Super,专攻多智能体系统性能瓶颈
杨植麟:大模型训练迈入AI主导新阶段,开源生态成关键推力
GEO技术滥用引爆AI投毒危机,大模型“心智”成新流量战场
每天120万亿Tokens:Seedance 2.0和ArkClaw龙虾,让豆包大模型调用量炸了
中国AI大模型调用量连续两周领跑全球,Token消耗量五年或激增370倍
阿里发布国产最强编程大模型Qwen3.6-Plus,多模态智能体能力全面跃升
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号