【科技纵览】2026年的自动驾驶赛道,正经历着第三次底层逻辑的重构。当行业刚刚消化完硬件堆砌与端到端算法的博弈,以小鹏、理想为首的新势力及吉利、长城等传统车企,便纷纷押注VLA(视觉-语言-动作)模型,试图以此作为技术迭代的新支点。这种“视觉感知+语言推理+动作输出”的三位一体架构,虽解决了传统智驾“看得懂却不懂逻辑”的痛点,但其依赖两次翻译导致的误差累积与反应迟滞,也暴露了明显的结构性短板。残酷的是,就在部分厂商还在打磨VLA量产细节时,华为、小米等头部玩家已将其视为过渡技术,目光早已锁定下一代范式。
回溯过去十年,自动驾驶经历了三次范式跃迁。第一代规则驱动时代,依靠百万行C++代码硬编码固定规则,虽稳定可控,却在面对异形路况时显得极度僵化,这也是早期辅助驾驶局限于高速巡航的主因。第二代端到端AI时代,以特斯拉FSD V12为标志,摒弃模块化拆分,通过海量数据训练实现“像素输入、动作输出”,大幅提升了平顺度,但因缺乏理解能力,常出现识别正确但决策生硬的尴尬。第三代即当下的VLA时代,引入自然语言推理,构建起从感知到决策的闭环,让高阶无图智驾在城市复杂场景中具备了量产实用性。然而,随着主流车企VLA表现趋于同质化,技术红利见顶,行业亟需新的突破点。
看似完美的VLA,实则面临四大瓶颈。首先是时序逻辑缺失,对车流变化、行人轨迹等连续动态预判不足,导致在鬼探头等场景下决策滞后。其次是算力成本高昂,通用VLA推理速度普遍不足10Hz,难以满足车载电控系统100Hz的响应要求,即便优化至80毫秒时延,仍难兼顾智能化与实时性。第三是缺乏物理常识,仅靠数据拟合无法真正理解“积水打滑”等长尾场景的物理规律,安全底线难以保障。最后是跨模态对齐偏差,视觉、语言、动作间的链路损耗,易在逆光等受限场景下引发语义脱节,导致行驶顿挫甚至事故。
站在2026年的节点,头部厂商已转向物理世界智能建模。多模态物理世界模型成为核心底座,它不依赖数据拟合,而是自主学习物理规则,能自主推演未见过场景的最优决策,从根本上解决长尾失效问题。同时,时序具身智能架构被提上日程,通过强化连续场景建模,实现“过去-现在-未来”的全时序链路决策,补齐动态避险短板。此外,神经符号融合技术旨在平衡智能度与可解释性,将AI直觉与符号逻辑结合,确保决策合规可控。而轻量化通用基座则通过模型蒸馏等手段,降低算力门槛,推动高阶智驾下沉至中端车型。
新一轮技术竞速已然开启。特斯拉坚持“纯视觉端到端+物理仿真训练”,未引入大语言模型,而是利用神经世界模拟器进行云端闭环训练。华为推出WEWA 2.0架构,云端引入多智能体博弈与在线强化学习,车端则以安全风险场理论为核心,提升防御性驾驶能力。小鹏汽车在第二代VLA中激进地去除了语言层,采用“视觉→隐式Token→动作”架构,极致压缩时延;理想则推出Mind VLA-01,重点解决三维空间对齐偏差,主打量产性价比。小米发布的XLA认知大模型,原生支持多模态数据,融合VLA与世界模型架构,强调低时延与可追溯性。小马智行、文远知行等企业也纷纷布局世界模型,试图通过虚拟环境中的无限场景生成,实现模型迭代的断代式领先。
整体来看,二线厂商仍在全力落地VLA以追赶主流,而一线头部厂商已提前布局世界模型与具身智能。未来两年,车企的竞争焦点将从VLA能力转向物理智能技术的落地速度。VLA作为关键过渡技术,完成了从“机械辅助”到“类人智能”的跨越,但其结构性缺陷注定无法支撑L4级完全自动驾驶。随着技术发展,自动驾驶将迎来安全兜底能力质变、摆脱数据依赖以及成本大幅下探三大颠覆性变化。届时,高阶全自动驾驶将从高端豪车标配下沉至十几万家用车型,实现全民普惠。这一轮迭代,不仅是算法的升级,更是自动驾驶从“为人所用”迈向“与人共生”的终极跨越。
VLA并非终局:自动驾驶迈入“物理智能”深水区
科技区角
2026-05-27 20:31
声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。