英伟达机器人的一号位，先别急着给 VLA 开“追悼会”

不得不承认，英伟达的机器人一号位Jim Fan的演讲相当精彩，整体节奏的把控和中间梗图的插入都让我印象深刻。但最让我印象深刻的是这样一句话：

“VLA已死，WAM万岁”！

作为一个研究者，我认为这样的说法，过于武断了。我复现过包括PI0.5在内的一系列 VLA 工作，切实体会过它们的问题，也一直关注着World Model路线的最新发展。

在我看来，现在真正发生的不是死亡，而是融合。

PI 的 π0.7 把 VLA 和轻量世界模型放进同一个机器人系统里；Genesis 和 Generalist AI 也在用不同方式说明，VLA 和 WM 这两条路线并非非此即彼的宗教战争。

传统 VLA 过度依赖语言模型，语言是一等公民，视觉和动作靠边站；它擅长名词、语义和常识，但不擅长物理、动词和连续控制；遥操作受机器人数量、故障率、操作员效率和每天 24 小时物理上限卡死，扩展性远不如人类第一视角视频和穿戴式传感数据。

目前的传统 VLA 的确有问题（难以想象VLA发展才几年我们就要以“传统”来形容它了），但问题在于范式从来都不是一成不变的，这些问题并非无药可救，将现阶段的VLA早早宣判死刑过于武断。

注（演讲链接）：https://www.youtube.com/watch?v=3Y8aq_ofEVs&t=2s

PI0.7：VLA 和世界模型已经坐到一张桌上

Physical Intelligence 发布的 π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities，就是最直接的反例，它明明白白写着：π0.7 VLA Vision-Language-Action Model。

它也是我关于范式变化的最重要的论据，prompt 不再只有一句“把杯子拿起来”，而是扩展成一整套多模态上下文：

语言任务指令；
子任务指令；
速度、质量、控制模式等元数据；
多视角历史记忆；
视觉子目标图像；
推理时由轻量级 world model 生成的 subgoal。

这意味着 VLA 开始追问未来状态：

“如果任务继续推进，合理的未来画面应该长什么样？”

这就是世界模型的地盘。

π0.7 的做法不是把 VLA 埋了，而是把世界模型塞进 VLA 的决策链路里：高层策略给子任务，world model 生成视觉子目标，底层VLA再把这些目标落到机器人动作上。

PI0.7是最直接的证明：范式并非一成不变，就像现在的 VLA 抛弃了自回归动作专家，使用flow-based动作专家一样，未来 VLA 也会与世界模型进行融合，无论是借鉴其预测未来状态的思想，还是像PI0.7一样直接利用世界模型。

Genesis：不是二选一，而是把 VLM 和 World Model 都变成先验

Genesis AI 在 GENE-26.5 中提到，他们希望学习一个统一模型，吸收语言、视觉、本体感知、触觉和动作等异构输入输出，并用 flow matching 建模轨迹的联合分布。

Genesis 明确把两类先验都纳入系统：

VLM：负责意图、语义和视觉语言表示；
World Model：以 action-conditioned video generation 的形式捕捉时间和物理动态。

未来具身模型不会满足于只做 VLA，也不会满足于只做 World Model；它会把理解、生成、状态估计、逆动力学、价值估计和控制统一起来。

Generalist AI：不被标签绑架，训练原生的具身基础模型

Generalist AI 的 GEN-1 博客更是批判了这种行为，指出不应被 VLA 和 World Model 这些标签绑架。

GEN-1 不是微调版 VLM 外挂动作，也不只是 world model，而是为物理交互原生训练的 foundation model——而他们不把自家模型归到任何一个标签里。

GEN-1 的一个核心思想就是说，VLA 和 WM 的标签并不重要，它们都是为了实现目标的方法。方法本身会不断演进，而优秀的研究者应该保持目标导向，而不是把具身智能的技术路线做成选择题。

VLA 和 World Model 的边界本来就会塌

说白了，VLA 和 World Model 的核心差别，主要在基模和训练目标。传统 VLA以 VLM 为底座，把视觉和语言理解迁移到动作输出；而World Model以视频生成模型为底座，重点学习未来世界的状态。

一个偏理解，一个偏生成。

但理解和生成正在走向统一，作为基座的模型正在走向融合，这个趋势已经很明显。OpenAI 把图像生成纳入 GPT-4o 这类原生多模态模型；LongCat-Next，EMU3.5等工作也都强调生成和理解的统一。

如果基座模型正在走向理解-生成统一，那具身模型为什么还要停留在 VLA or World Model 的选择题里？

VLA 和 World Model 正在从“路线竞争”走向“能力融合”。最终名字可能不叫 VLA，也可能不叫 WAM，而叫 RFM、Physical Foundation Model、Native Physical Model 或别的营销名词。但能力层面，视觉语言理解、未来状态生成、动作规划和闭环控制会越来越难拆开。

这已经足够反驳“VLA已死”。

因为如果一种范式正在被下一代系统吸收、扩展、重命名、重构，那它不是死亡。它是进入了下一轮进化。

VLA 死了吗？

没有。

真正死掉的，是过去天真的想法：以为给 VLM 接上动作头，机器人就能通用。

具身智能的下一阶段，不会是 VLA 单挑 WAM，而会是融合——这不是葬礼，这是合体。

Jim Fan的演讲非常精彩，但作为研究者，我认为还是需要静下心来思考。技术本身是在不断演变的，给现在的 VLA 和遥操作判死刑，未免太过武断——它们都并非毫无可取之处，该判死刑的，是错误的想法，而不是技术本身。

最后，我很喜欢Jim Fan在演讲结束时非常富有浪漫色彩的一段话，我也把它送给大家。