缺乏关键机制，机器人的“GPT时刻”恐怕只能是黄粱一梦。光有 VLA 和 WM 可不够！

点击下方卡片，关注“具身智能之心”公众号

编辑丨具身智能之心
本文只做学术分享，如有侵权，联系删文

更多干货，欢迎加入国内首个具身智能全栈学习社区：(戳我)，这里包含所有你想要的。

过去一年，机器人领域的主线越来越像“把 VLA 做大，把数据做多，把 world model 接进来”。这条路线有现实价值：更大的机器人数据集、更强的视觉语言模型、更好的动作生成器，确实让机器人从单任务系统走向更通用的策略。

最近看到了一篇工作，作者来自Motoniq.ai、斯坦福、ETH 等团队，没有提出一个单独的新模型，也没有给出实验表格。

但这篇 position paper 的判断更尖锐：机器人缺的关键短板还包括把世界中的行为数据自动变成机器人可用监督。人类动作、互联网视频、仿真 rollout、真实部署失败都包含任务、接触、目标、失败和物理约束，但这些信息通常没有机器人动作标签、任务阶段、reward 结构和本体约束。

缺乏关键机制，机器人的“GPT时刻”恐怕只能是黄粱一梦。光有 VLA 和 WM 可不够！图1

原论文：Robots Need More Than VLAs & World Models

链接：https://arxiv.org/abs/2606.06556v1

它的核心是提出一个面向下一代机器人基础系统的组织原则：VLA 应该被看成物理智能系统中的策略接口，world model 也只是后果预测接口；在它们之前和之后，还需要把异构物理经验转成结构化监督的机制。作者把缺失组件概括为四类：物理数据引擎与具身自标注、跨本体的任务保持重定向、面向后果预测的物理接地 world model，以及能把部署反馈转回训练信号的 reward grounding 闭环。

VLA scale 的瓶颈在于监督grounding

这篇工作首先把当前主流路线称为机器人原生监督。

所谓机器人原生监督，是指数据已经处在机器人学习问题的坐标系里：观察和机器人动作配对，任务说明或语言标签已经给出，reward、成功信号和本体约束也大多已经被人工设计或事后整理。这样的数据最容易训练策略，因为模型可以直接模仿动作、优化 reward，或根据任务描述输出控制命令。

这条路线支撑了很多重要进展。RoboNet 汇集 7 个机器人平台上的 1500 万视频帧；BridgeData V2 提供约 6 万条操作轨迹；DROID 收集约 7.6 万条演示、350 小时交互数据；RH20T 包含超过 11 万段接触丰富的操作序列。策略模型侧，RT-1 用 13 台机器人、超过 700 个任务上的约 13 万真实机器人 episode 训练语言条件策略，RT-2 把网页视觉语言知识和机器人轨迹联合训练，OpenVLA 在 Open X-Embodiment 的约 97 万真实机器人演示上训练 7B VLA，用 flow matching 从视觉语言模型接到连续动作。

这些工作说明机器人策略确实能从更多任务、更多环境、更多本体中获益。

本工作指出的问题在于：最有效的监督仍然大多已经被整理成机器人能使用的数据。一条机器人轨迹不像一段文本语料，每一个动作都绑定特定机械臂、夹爪、传感器和控制接口；每一次失败都可能损坏硬件或环境。因此，世界里虽然有海量物理行为，能直接用来训练机器人策略的部分却很少。

作者把这个矛盾概括为 grounding 问题：怎样把更广泛的物理经验转成机器人可用的动作、接触、物体状态、任务阶段、目标和 reward。VLA 解决的是“给定已经接地好的观察和任务，如何输出动作”；这篇工作强调的是，那些还没有动作标签、reward 和本体对应关系的物理经验，怎样先变成监督？

缺乏关键机制，机器人的“GPT时刻”恐怕只能是黄粱一梦。光有 VLA 和 WM 可不够！图2

图 1 ，左侧是物理经验来源，包括机器人原生轨迹、人类动作与传感、互联网或第一人称视频、仿真、语言任务描述、触觉/力/接触流、失败与部署记录；中间是 grounding 机制，包括物理数据引擎、具身自标注、任务保持重定向、反事实模型和 reward grounding；右侧才是机器人可用监督、VLA 策略、规划控制、部署运行时和持续改进。

以前的路线已经在尝试绕开机器人原生监督，只是还没有形成完整的物理智能闭环。

第一类是从弱grounding物理观察中学习。人类视频和互联网视频没有机器人动作标签，但包含物体用途、接触时机、任务进展和失败恢复。本工作用一个简单形式区分“看见了什么变化”和“机器人应该执行什么动作”：

是视频里的观察序列，是机器人动作序列。机器人原生模仿学习通常能拿到这样的配对，而人类或互联网视频大多只提供，有时再附带语言、字幕或弱任务元数据。这里缺失的正是动作配对。

因此，一批工作尝试学习能解释状态转移的 latent action：

表示第个时间步的动作式潜变量；是从相邻观察和语言信息中推断转移代码的模型；与描述可见物理变化；与提供任务语义。这个公式的作用是把“视频里发生了什么变化”压缩成一个还不绑定具体机器人的动作式描述，例如移动、抓取、打开、放置、插入或对齐。论文强调，在被某个本体条件解码器映射成可执行命令之前，还不能直接叫机器人动作。

R3M、VIP、MVP、VC-1 等方法把人类或互联网视频用于视觉表示预训练；TCN、AVID、XIRL、DVD 等方法用跨视角或跨本体视频学习 reward 或功能相似性；LAPA 和 UniVLA 更进一步，从无动作标签视频中学习 latent action，再用较小规模机器人数据微调到可执行动作。它们共同说明：视频可以提供表征、进展信号、latent action 和行为先验。但论文也指出，这些信号仍然需要进一步接地。人类策略未必能被机器人执行，时间顺序推出来的进展也未必等于新机器人本体上的 reward。

第二类是生成物理经验。仿真、合成演示、real-to-sim-to-real 和 learned world model 都试图把昂贵的真实机器人数据放大。RLBench、Meta-World、ManiSkill、CALVIN、LIBERO 提供可控任务和可复现实验；MimicGen 从少量人类演示合成大量仿真演示；RoboCasa 和 RoboCasa365 把厨房操作扩展到更大规模；RialTo、RL-GSBridge、Real-is-Sim 等 real-to-sim-to-real 方法从真实场景重建数字孪生，再用仿真扩展训练。

world model 路线则从另一个角度生成经验：让机器人在模型里想象后果。Dreamer、DayDreamer 这类模型学习 latent dynamics 并通过想象 rollout 改进策略；RoboDreamer、UniSim、Genie 把视频生成、交互环境和机器人学习联系起来；PointWorld、ParticleFormer、FOCUS、ContactGaussian-WM 等工作尝试把预测从像素推进到物体、3D、接触和物理约束。

这些路线扩展了经验来源，却没有消除 grounding 难题。仿真只有在几何、接触、摩擦、物体稳定性和失败模式足够可信时才有用；world model 生成的未来如果只是视觉上合理，却不保留控制成败所依赖的物理变量，就还不能作为可靠的机器人监督。

物理智能栈：四个接口把异构经验变成可学习变量

本工作没有把下一代机器人基础模型定义成一个更大的 VLA，而是定义成一个闭环栈：物理数据引擎负责从异构经验中抽取事件；重定向模块负责把事件映射到具体机器人动作；物理grounding world model 负责预测候选动作后果；reward grounding 和部署闭环负责判断结果，并把成功、失败和纠正反馈回系统。

物理数据引擎：从异步多模态流中恢复事件

物理数据引擎要处理的原始 episode 可能来自机器人 rollout、人类演示、可穿戴传感、互联网视频、仿真或部署记录。不同模态的采样频率并不一致，所以论文先把一段原始经验写成：

这里是一段异构物理经验；是第帧视频，是它的时间戳；是动作捕捉、可穿戴设备或人体姿态测量，是对应时间戳；是触觉、力、接触或手部传感读数，是对应时间戳；是机器人日志，例如本体状态、部署元数据或可用的动作记录，是日志时间戳；是语言信息，包括指令、字幕、任务描述或人类纠正。

这个公式的重要性在于，它没有假设每段数据都有完整模态。互联网视频可能只有视频和弱字幕，可穿戴演示可能有姿态、触觉和语言，机器人 rollout 可能有动作、本体状态和成功/失败元数据。物理数据引擎要做的是在这些不完整来源之间寻找共同的物理结构。

由于模态异步，这里引入 latent event timeline。令表示潜在事件时间线，它可以不同于视频帧率或机器人控制频率。对齐变量写成：

的作用是把不同传感流的时间戳映射到同一个事件索引。例如视频第 30 到 55 帧、动作捕捉第 102 到 180 条读数、1.8 秒处的触觉尖峰，可能都对应这个“接触开始”事件。论文强调，时间对齐不是预处理小事，它本身就是具身自标注的一部分。

对每个事件，定义要恢复的潜在结构：

是以物体为中心的物理状态，例如物体位姿、空间关系或可见状态；是接触或交互标签；是任务阶段；是 latent physical action 或转移代码；是任务条件下的进展或 reward 信号。episode 级别还要推断目标和结果标签，例如成功、失败、部分成功或不安全执行，因此完整解释为：

物理数据引擎可以写成一个推断模型：

从原始异步多模态经验中同时推断事件结构和对齐关系。它要联合完成时间对齐、事件切分、物体状态估计、接触推断、阶段识别、latent action 发现、reward grounding 和结果预测。作者用放杯子的例子说明：普通视频字幕可能只会说“一个人把杯子放到托盘上”，物理数据引擎应该恢复 reach-to-cup、contact-begins、grasp 等事件，以及每个事件里的物体位姿、手物接触、任务阶段和进展。

任务保持重定向：保留物理效果，避免停留在姿态复制

即便物理数据引擎已经推断出事件序列，机器人仍然不知道自己该怎么动。人手、平行夹爪、灵巧手、移动操作臂、四足机器人和人形机器人具有不同运动学、动力学、传感器、动作空间和接触表面。

这里的缺口称为 embodiment gap，并提出 任务保持重定向：把 latent physical action 或人类演示映射成某个机器人可执行动作，同时保留任务相关的物理效果。

给定事件的 latent action 和物体状态，对机器人本体，重定向要寻找：

并满足：

是具体机器人能执行的动作或技能；是重定向模型；表示机器人本体条件，包括形态、动作空间、控制接口和约束；是目标下任务相关的物理效果，例如开抽屉时的抽屉位移、放置任务中的物体姿态、插入任务中的相对对齐、装箱任务中的包含关系、抓取任务中的接触状态。第一个公式说明“怎样把事件转成动作”，第二个公式说明“转成动作后应保留什么”。目标是让机器人以自己的身体完成同一个任务效果，而非复刻人类关节轨迹。

作者把重定向要保留的不变量分成层级：最弱是姿态保持，把人手轨迹映射到末端执行器；更强是接触保持，在正确时机接触正确物体表面；再强是物体状态转移保持，确保抽屉被拉开、杯子被拿起、插销被对齐；最强是意图或技能保持，机器人可以用完全不同的动作完成同一任务。这个层级也是作者为什么重视可穿戴传感和具身自标注的原因：它们不需要直接给出机器人动作，却能提供手物接触、力相关事件、物体状态变化和任务阶段，这些变量比原始人体关节角更容易跨本体迁移。

物理grounding world model：预测控制成败相关的后果

重定向模块提出一个机器人动作之后，还需要判断这个动作会造成什么后果。杯子会滑吗，接触会建立还是丢失，抽屉会打开还是卡住，释放后物体是否稳定，布料是否按预期变形，这些问题都不是普通视频生成能直接回答的。论文把这个接口称为面向后果预测的物理接地 world model。

抽象地写，给定物体中心状态、目标和 latent action ，world model 预测下一个物理状态：

如果已经落到具体机器人本体上，则写成：

是 world model；是事件后的物理状态分布；第一种形式支持任务层推理，例如“拉、提、插入、放置”应该产生什么状态变化；第二种形式支持本体条件规划，即某个机器人以自己的形态和控制器执行某个动作后会发生什么。作者反复强调，模型应预测控制和 reward 关心的变量：物体位姿、空间关系、接触、约束、速度、力、可变形状态，以及摩擦、质量、刚度、柔顺性等物理属性；像素只是其中一种可见投影。

这也解释了本工作对 world model 的要求。一个视觉上真实的未来帧，若忽略接触、质量、摩擦或稳定性，可能对表征学习有帮助，却还不是可靠的机器人控制基座。机器人 world model 的目标应当和下游控制对齐：开抽屉时更关心把手接触和抽屉位移，倒水时更关心液体状态和容器姿态，叠布时更关心可变形几何和接触点。像素重建只是手段，物理后果才是核心。

reward grounding 与部署闭环：失败要能回流到正确组件

机器人执行动作之后，系统还需要判断结果相对任务是否有用。论文把 reward 写成任务条件下的物理解释：

是 reward 模型；是事件的物理状态；是当前任务或目标；是任务阶段。这个公式表达的是：reward 应被理解为目标和阶段下对物理进展的解释，不能当作附着在状态上的通用标量。同样一个“杯子在桌面上”的状态，对于“放下杯子”可能是成功，对于“拿起杯子”可能是失败，对于“打开抽屉”则可能无关。

部署闭环由此成立：部署策略，观察结果，推断任务条件下的进展、成功或失败，解释失败或人类纠正，把 grounding 后的监督加入物理数据引擎，再更新 reward 模型、world model、重定向模块和策略。论文特别强调组件级信用分配：如果动作本身很差，应更新策略；如果预测后果错了，应更新 world model；如果任务效果没有保留，应更新重定向；如果成功/失败判断错了，应更新 reward 模型。没有这一步，失败只是失败视频；有了 reward grounding，失败才会变成可复用的训练信号。

unsetunset写在最后unsetunset

这篇工作没有给出新模型、训练损失和实验结果表。它更像一篇研究议程：先梳理 VLA、弱监督视频、latent action、仿真、real-to-sim-to-real、world model、reward model 的现状，再指出这些路线共同暴露出的缺失层。这个缺失层指向一组把物理经验转成机器人监督的接口，而非某一个网络结构。

过去我们往往关注：一个更大策略是否能完成更多任务，是否能在更多机器人本体上泛化，是否能通过更多视觉语言知识改善动作预测。

这篇工作建议也要关注另一组问题：系统能否从人类行为中推断接触、物体状态变化和任务阶段；能否把演示中的物理效果重定向到新本体，避免简单复制姿态；world model 能否预测决定成功和失败的物理后果，而非只生成合理未来帧；reward 模型能否在当前目标下区分进展、失败、恢复和成功；部署失败能否更新正确组件。

当然，这个框架还比较抽象。公式给出的是变量关系和系统接口，尚未说明如何训练一个可靠的、、或，也没有证明这些组件在真实机器人上组合后会比现有 VLA 或 world model 系统更强。尤其是具身自标注和任务保持重定向都需要非常强的感知、接触估计和物理推理能力；如果中间标签错了，后续 world model、reward 和策略都会被污染。这些问题在这篇工作中被定位为开放挑战，而非已经解决的工程方案。

即便如此，本工作给出的方向是有启发性的：机器人需要 VLA，也需要 world model；但更需要一套能把世界中未整理的物理行为转成机器人可用监督的机制。只有这个机制建立起来，人类演示、互联网视频、仿真 rollout、触觉记录、真实失败和人类纠正，才可能从零散经验变成持续增长的物理智能训练源。

否则，机器人的“GPT时刻”，恐怕只能是黄粱一梦。

END