VLA并非终局：自动驾驶迈入“物理智能”深水区

【科技纵览】2026年的自动驾驶赛道，正经历着第三次底层逻辑的重构。当行业刚刚消化完硬件堆砌与端到端算法的博弈，以小鹏、理想为首的新势力及吉利、长城等传统车企，便纷纷押注VLA（视觉-语言-动作）模型，试图以此作为技术迭代的新支点。这种“视觉感知+语言推理+动作输出”的三位一体架构，虽解决了传统智驾“看得懂却不懂逻辑”的痛点，但其依赖两次翻译导致的误差累积与反应迟滞，也暴露了明显的结构性短板。残酷的是，就在部分厂商还在打磨VLA量产细节时，华为、小米等头部玩家已将其视为过渡技术，目光早已锁定下一代范式。

回溯过去十年，自动驾驶经历了三次范式跃迁。第一代规则驱动时代，依靠百万行C++代码硬编码固定规则，虽稳定可控，却在面对异形路况时显得极度僵化，这也是早期辅助驾驶局限于高速巡航的主因。第二代端到端AI时代，以特斯拉FSD V12为标志，摒弃模块化拆分，通过海量数据训练实现“像素输入、动作输出”，大幅提升了平顺度，但因缺乏理解能力，常出现识别正确但决策生硬的尴尬。第三代即当下的VLA时代，引入自然语言推理，构建起从感知到决策的闭环，让高阶无图智驾在城市复杂场景中具备了量产实用性。然而，随着主流车企VLA表现趋于同质化，技术红利见顶，行业亟需新的突破点。

看似完美的VLA，实则面临四大瓶颈。首先是时序逻辑缺失，对车流变化、行人轨迹等连续动态预判不足，导致在鬼探头等场景下决策滞后。其次是算力成本高昂，通用VLA推理速度普遍不足10Hz，难以满足车载电控系统100Hz的响应要求，即便优化至80毫秒时延，仍难兼顾智能化与实时性。第三是缺乏物理常识，仅靠数据拟合无法真正理解“积水打滑”等长尾场景的物理规律，安全底线难以保障。最后是跨模态对齐偏差，视觉、语言、动作间的链路损耗，易在逆光等受限场景下引发语义脱节，导致行驶顿挫甚至事故。

站在2026年的节点，头部厂商已转向物理世界智能建模。多模态物理世界模型成为核心底座，它不依赖数据拟合，而是自主学习物理规则，能自主推演未见过场景的最优决策，从根本上解决长尾失效问题。同时，时序具身智能架构被提上日程，通过强化连续场景建模，实现“过去-现在-未来”的全时序链路决策，补齐动态避险短板。此外，神经符号融合技术旨在平衡智能度与可解释性，将AI直觉与符号逻辑结合，确保决策合规可控。而轻量化通用基座则通过模型蒸馏等手段，降低算力门槛，推动高阶智驾下沉至中端车型。

新一轮技术竞速已然开启。特斯拉坚持“纯视觉端到端+物理仿真训练”，未引入大语言模型，而是利用神经世界模拟器进行云端闭环训练。华为推出WEWA 2.0架构，云端引入多智能体博弈与在线强化学习，车端则以安全风险场理论为核心，提升防御性驾驶能力。小鹏汽车在第二代VLA中激进地去除了语言层，采用“视觉→隐式Token→动作”架构，极致压缩时延；理想则推出Mind VLA-01，重点解决三维空间对齐偏差，主打量产性价比。小米发布的XLA认知大模型，原生支持多模态数据，融合VLA与世界模型架构，强调低时延与可追溯性。小马智行、文远知行等企业也纷纷布局世界模型，试图通过虚拟环境中的无限场景生成，实现模型迭代的断代式领先。

整体来看，二线厂商仍在全力落地VLA以追赶主流，而一线头部厂商已提前布局世界模型与具身智能。未来两年，车企的竞争焦点将从VLA能力转向物理智能技术的落地速度。VLA作为关键过渡技术，完成了从“机械辅助”到“类人智能”的跨越，但其结构性缺陷注定无法支撑L4级完全自动驾驶。随着技术发展，自动驾驶将迎来安全兜底能力质变、摆脱数据依赖以及成本大幅下探三大颠覆性变化。届时，高阶全自动驾驶将从高端豪车标配下沉至十几万家用车型，实现全民普惠。这一轮迭代，不仅是算法的升级，更是自动驾驶从“为人所用”迈向“与人共生”的终极跨越。