不得不承认,英伟达的机器人一号位Jim Fan的演讲相当精彩,整体节奏的把控和中间梗图的插入都让我印象深刻。但最让我印象深刻的是这样一句话:
“VLA已死,WAM万岁”!
作为一个研究者,我认为这样的说法,过于武断了。我复现过包括PI0.5在内的一系列 VLA 工作,切实体会过它们的问题,也一直关注着World Model路线的最新发展。
在我看来,现在真正发生的不是死亡,而是融合。
PI 的 π0.7 把 VLA 和轻量世界模型放进同一个机器人系统里;Genesis 和 Generalist AI 也在用不同方式说明,VLA 和 WM 这两条路线并非非此即彼的宗教战争。
传统 VLA 过度依赖语言模型,语言是一等公民,视觉和动作靠边站;它擅长名词、语义和常识,但不擅长物理、动词和连续控制;遥操作受机器人数量、故障率、操作员效率和每天 24 小时物理上限卡死,扩展性远不如人类第一视角视频和穿戴式传感数据。
目前的传统 VLA 的确有问题(难以想象VLA发展才几年我们就要以“传统”来形容它了),但问题在于范式从来都不是一成不变的,这些问题并非无药可救,将现阶段的VLA早早宣判死刑过于武断。
注(演讲链接):https://www.youtube.com/watch?v=3Y8aq_ofEVs&t=2s
PI0.7:VLA 和世界模型已经坐到一张桌上
Physical Intelligence 发布的 π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities,就是最直接的反例,它明明白白写着:π0.7 VLA Vision-Language-Action Model。


它也是我关于范式变化的最重要的论据,prompt 不再只有一句“把杯子拿起来”,而是扩展成一整套多模态上下文:
-
语言任务指令; -
子任务指令; -
速度、质量、控制模式等元数据; -
多视角历史记忆; -
视觉子目标图像; -
推理时由轻量级 world model 生成的 subgoal。
这意味着 VLA 开始追问未来状态:
“如果任务继续推进,合理的未来画面应该长什么样?”
这就是世界模型的地盘。
π0.7 的做法不是把 VLA 埋了,而是把世界模型塞进 VLA 的决策链路里:高层策略给子任务,world model 生成视觉子目标,底层VLA再把这些目标落到机器人动作上。
PI0.7是最直接的证明:范式并非一成不变,就像现在的 VLA 抛弃了自回归动作专家,使用flow-based动作专家一样,未来 VLA 也会与世界模型进行融合,无论是借鉴其预测未来状态的思想,还是像PI0.7一样直接利用世界模型。
Genesis:不是二选一,而是把 VLM 和 World Model 都变成先验
Genesis AI 在 GENE-26.5 中提到,他们希望学习一个统一模型,吸收语言、视觉、本体感知、触觉和动作等异构输入输出,并用 flow matching 建模轨迹的联合分布。

Genesis 明确把两类先验都纳入系统:
-
VLM:负责意图、语义和视觉语言表示; -
World Model:以 action-conditioned video generation 的形式捕捉时间和物理动态。
未来具身模型不会满足于只做 VLA,也不会满足于只做 World Model;它会把理解、生成、状态估计、逆动力学、价值估计和控制统一起来。
Generalist AI:不被标签绑架,训练原生的具身基础模型
Generalist AI 的 GEN-1 博客更是批判了这种行为,指出不应被 VLA 和 World Model 这些标签绑架。

GEN-1 不是微调版 VLM 外挂动作,也不只是 world model,而是为物理交互原生训练的 foundation model——而他们不把自家模型归到任何一个标签里。
GEN-1 的一个核心思想就是说,VLA 和 WM 的标签并不重要,它们都是为了实现目标的方法。方法本身会不断演进,而优秀的研究者应该保持目标导向,而不是把具身智能的技术路线做成选择题。
VLA 和 World Model 的边界本来就会塌
说白了,VLA 和 World Model 的核心差别,主要在基模和训练目标。传统 VLA以 VLM 为底座,把视觉和语言理解迁移到动作输出;而World Model以视频生成模型为底座,重点学习未来世界的状态。
一个偏理解,一个偏生成。
但理解和生成正在走向统一,作为基座的模型正在走向融合,这个趋势已经很明显。OpenAI 把图像生成纳入 GPT-4o 这类原生多模态模型;LongCat-Next,EMU3.5等工作也都强调生成和理解的统一。
如果基座模型正在走向理解-生成统一,那具身模型为什么还要停留在 VLA or World Model 的选择题里?
VLA 和 World Model 正在从“路线竞争”走向“能力融合”。最终名字可能不叫 VLA,也可能不叫 WAM,而叫 RFM、Physical Foundation Model、Native Physical Model 或别的营销名词。但能力层面,视觉语言理解、未来状态生成、动作规划和闭环控制会越来越难拆开。
这已经足够反驳“VLA已死”。
因为如果一种范式正在被下一代系统吸收、扩展、重命名、重构,那它不是死亡。它是进入了下一轮进化。
VLA 死了吗?
没有。
真正死掉的,是过去天真的想法:以为给 VLM 接上动作头,机器人就能通用。
具身智能的下一阶段,不会是 VLA 单挑 WAM,而会是融合——这不是葬礼,这是合体。
Jim Fan的演讲非常精彩,但作为研究者,我认为还是需要静下心来思考。技术本身是在不断演变的,给现在的 VLA 和遥操作判死刑,未免太过武断——它们都并非毫无可取之处,该判死刑的,是错误的想法,而不是技术本身。
最后,我很喜欢Jim Fan在演讲结束时非常富有浪漫色彩的一段话,我也把它送给大家。
我们的这一代人,也许出生得太晚,没赶上探索地球,也出生得太早,还没赶上探索星辰,但我们出生得刚刚好,因为我们正好赶上,去解决机器人。