英伟达机器人的一号位,先别急着给 VLA 开“追悼会”

具身智能之心 2026-05-12 08:30

不得不承认,英伟达的机器人一号位Jim Fan的演讲相当精彩,整体节奏的把控和中间梗图的插入都让我印象深刻。但最让我印象深刻的是这样一句话:

“VLA已死,WAM万岁”!

作为一个研究者,我认为这样的说法,过于武断了。我复现过包括PI0.5在内的一系列 VLA 工作,切实体会过它们的问题,也一直关注着World Model路线的最新发展。

在我看来,现在真正发生的不是死亡,而是融合

PI 的 π0.7 把 VLA 和轻量世界模型放进同一个机器人系统里;Genesis 和 Generalist AI 也在用不同方式说明,VLA 和 WM 这两条路线并非非此即彼的宗教战争。


传统 VLA 过度依赖语言模型,语言是一等公民,视觉和动作靠边站;它擅长名词、语义和常识,但不擅长物理、动词和连续控制;遥操作受机器人数量、故障率、操作员效率和每天 24 小时物理上限卡死,扩展性远不如人类第一视角视频和穿戴式传感数据。

目前的传统 VLA 的确有问题(难以想象VLA发展才几年我们就要以“传统”来形容它了),但问题在于范式从来都不是一成不变的,这些问题并非无药可救,将现阶段的VLA早早宣判死刑过于武断。

注(演讲链接):https://www.youtube.com/watch?v=3Y8aq_ofEVs&t=2s

PI0.7:VLA 和世界模型已经坐到一张桌上

Physical Intelligence 发布的 π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities,就是最直接的反例,它明明白白写着:π0.7 VLA Vision-Language-Action Model

英伟达机器人的一号位,先别急着给 VLA 开“追悼会”图1
英伟达机器人的一号位,先别急着给 VLA 开“追悼会”图2

它也是我关于范式变化的最重要的论据,prompt 不再只有一句“把杯子拿起来”,而是扩展成一整套多模态上下文:

  • 语言任务指令;
  • 子任务指令;
  • 速度、质量、控制模式等元数据;
  • 多视角历史记忆;
  • 视觉子目标图像;
  • 推理时由轻量级 world model 生成的 subgoal。

这意味着 VLA 开始追问未来状态:

“如果任务继续推进,合理的未来画面应该长什么样?”

这就是世界模型的地盘。

π0.7 的做法不是把 VLA 埋了,而是把世界模型塞进 VLA 的决策链路里:高层策略给子任务,world model 生成视觉子目标,底层VLA再把这些目标落到机器人动作上。

PI0.7是最直接的证明:范式并非一成不变,就像现在的 VLA 抛弃了自回归动作专家,使用flow-based动作专家一样,未来 VLA 也会与世界模型进行融合,无论是借鉴其预测未来状态的思想,还是像PI0.7一样直接利用世界模型。

Genesis:不是二选一,而是把 VLM 和 World Model 都变成先验

Genesis AI 在 GENE-26.5 中提到,他们希望学习一个统一模型,吸收语言、视觉、本体感知、触觉和动作等异构输入输出,并用 flow matching 建模轨迹的联合分布。

英伟达机器人的一号位,先别急着给 VLA 开“追悼会”图3

Genesis 明确把两类先验都纳入系统:

  • VLM:负责意图、语义和视觉语言表示;
  • World Model:以 action-conditioned video generation 的形式捕捉时间和物理动态。

未来具身模型不会满足于只做 VLA,也不会满足于只做 World Model;它会把理解、生成、状态估计、逆动力学、价值估计和控制统一起来。

Generalist AI:不被标签绑架,训练原生的具身基础模型

Generalist AI 的 GEN-1 博客更是批判了这种行为,指出不应被 VLA 和 World Model 这些标签绑架。

英伟达机器人的一号位,先别急着给 VLA 开“追悼会”图4

GEN-1 不是微调版 VLM 外挂动作,也不只是 world model,而是为物理交互原生训练的 foundation model——而他们不把自家模型归到任何一个标签里。

GEN-1 的一个核心思想就是说,VLA 和 WM 的标签并不重要,它们都是为了实现目标的方法。方法本身会不断演进,而优秀的研究者应该保持目标导向,而不是把具身智能的技术路线做成选择题

VLA 和 World Model 的边界本来就会塌

说白了,VLA 和 World Model 的核心差别,主要在基模和训练目标。传统 VLA以 VLM 为底座,把视觉和语言理解迁移到动作输出;而World Model以视频生成模型为底座,重点学习未来世界的状态。

一个偏理解,一个偏生成。

理解和生成正在走向统一,作为基座的模型正在走向融合,这个趋势已经很明显。OpenAI 把图像生成纳入 GPT-4o 这类原生多模态模型;LongCat-Next,EMU3.5等工作也都强调生成和理解的统一。

如果基座模型正在走向理解-生成统一,那具身模型为什么还要停留在 VLA or World Model 的选择题里?

VLA 和 World Model 正在从“路线竞争”走向“能力融合”。最终名字可能不叫 VLA,也可能不叫 WAM,而叫 RFM、Physical Foundation Model、Native Physical Model 或别的营销名词。但能力层面,视觉语言理解、未来状态生成、动作规划和闭环控制会越来越难拆开。

这已经足够反驳“VLA已死”。

因为如果一种范式正在被下一代系统吸收、扩展、重命名、重构,那它不是死亡。它是进入了下一轮进化。


VLA 死了吗?

没有。

真正死掉的,是过去天真的想法:以为给 VLM 接上动作头,机器人就能通用。

具身智能的下一阶段,不会是 VLA 单挑 WAM,而会是融合——这不是葬礼,这是合体。

Jim Fan的演讲非常精彩,但作为研究者,我认为还是需要静下心来思考。技术本身是在不断演变的,给现在的 VLA 和遥操作判死刑,未免太过武断——它们都并非毫无可取之处,该判死刑的,是错误的想法,而不是技术本身

最后,我很喜欢Jim Fan在演讲结束时非常富有浪漫色彩的一段话,我也把它送给大家。

我们的这一代人,也许出生得太晚,没赶上探索地球,也出生得太早,还没赶上探索星辰,但我们出生得刚刚好,因为我们正好赶上,去解决机器人。

 

 

END

 

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人 英伟达
more
“命门”被卡!谷歌牵手Marvell:一场终结英伟达霸权的“世纪密谈”?
具身季报 26Q1:宇树招股书、人形再思考、英伟达世界模型、高自由度灵巧手丨晚点播客
英伟达发布Nemotron 3 Nano Omni:多模态推理效率跃升9倍,重塑AI智能体交互范式
英伟达回应收购“大型PC制造商”
英伟达2026年初豪掷400亿美元“扫货”AI生态,300亿押注OpenAI引发循环投资争议
VLA死了,遥操也死了!英伟达机器人一号位说的
硬刚英伟达,亚马逊千亿豪赌Anthropic;性能提升20%,博世发布第三代碳化硅芯片;三星突破 10 纳米 DRAM 瓶颈
传英伟达拟收购戴尔or惠普!
最高27亿美元!英伟达投资康宁
刚刚,梁文锋被曝史上首次融资!DeepSeek V4彻底摆脱英伟达
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号