点击下方卡片，关注【Xbotics具身智能实验室】公众号

更多具身干货，欢迎加入（戳我）

👉具身智能学习资料汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide

👉具身智能求职/实习信息汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job

你想要的这里都有~~

WAM这半年确实火得快。DreamZero、Motus、Cosmos Policy几篇工作之后，圈子里基本有个共识了——机器人光看当前图像出动作不够，得能想象动作之后世界会变成什么样。但这周的势头明显变了。大家不再围着"预测未来准不准"打转，开始抠三个更实际的问题：预测出来的未来，动作模型到底能不能看懂？VLA能不能把WAM的动态先验变成自己的物理直觉？以及，机器人动手之前，能不能先用世界模型过一遍后果？

RepWAM、World Pilot、ω-EVA刚好各啃一个。

RepWAM：画面像不像没那么重要，关键是动作模型得能读懂底层表示

RepWAM这篇值得细读。它直接挑战了WAM的一个底层假设：很多世界动作模型用的tokenizer，可能从一开始路就偏了。

现在不少WAM直接拿视频生成模型的tokenizer来用。这类tokenizer的目标很单纯——重建像素，画面越保真越好。颜色、纹理、背景细节都留得很足，做视频生成没问题。但机器人控制不是拍电影。机器人真正在意的，不是桌面纹理清不清晰，杯子边缘渲得漂不漂亮，而是：这个物体会不会动？任务相关的变化发生在哪？语言指令对应的动作会带来什么视觉后果？

RepWAM的判断是：重建导向的tokenizer，可能根本不适合WAM。

像素重建只能告诉模型"未来画面长什么样"，却很难告诉它"为了完成指令，哪些视觉变化和动作真正相关"。tokenizer把模型容量浪费在背景和无关细节上，后续的动作生成器就很难从latent空间里读出有用的控制信息。

这周WAM的三篇硬货：RepWAM、World Pilot、ω-EVA，把世界模型往真机决策里又推了一步图1

所以RepWAM转向了representation-centric路线。它训练了一个representation visual-action tokenizer，把视觉输入映射到对齐的visual tokens和latent action tokens，然后在语言指令下，联合建模未来视觉状态以及连接这些状态的潜在动作。不让模型学"复原画面"，而是让它学"哪些视觉变化对应哪些可执行动作"。

Mask World Model、RLA-WM、JOPAT其实也有类似思路，但RepWAM把问题压得更底层。不是在模型头上打补丁，而是直接重新设计视觉-动作tokenization的基础接口。世界模型如果挂在错误的表示上，后面做再多未来预测、动作解码、闭环控制，都可能是在一个不适合控制的latent空间里修修补补。

World Pilot：不是取代VLA，而是给VLA补物理直觉

World Pilot适合放在VLA和WAM融合这个视角下看。

过去聊VLA和WAM，很容易站队。VLA强在语言理解和语义泛化，但物理动态建模天生是短板；WAM强在预测世界变化，语言推理和长程任务分解不一定顺手。World Pilot的态度很务实：VLA语义能力已经很强，不如用WAM给它补上物理直觉。

这周WAM的三篇硬货：RepWAM、World Pilot、ω-EVA，把世界模型往真机决策里又推了一步图2

两件事都做得挺漂亮。

一是Latent Steering。把WAM生成的scene-evolution latent注入VLA的perception layer。VLA看当前图像时，不再是只看一张静态快照，而是带着一点"场景接下来可能会怎么变"的动态预期。

二是Action Steering。把WAM生成的anticipated trajectory作为运动先验，给action generator。VLA生成动作时，不再只靠语言和图像硬猜，而是有一条未来轨迹做提示。

一个影响感知，一个影响动作。VLA看世界时更有时间感，出动作时更有运动线索。这正好打中了VLA的最大软肋：很多VLA的预训练来自静态图文对，它们知道物体是什么、任务语义是什么，但很难理解接触、推拉、变形、遮挡这类连续物理过程。World Pilot把WAM的动态预测能力包装成一种外部直觉，插进VLA的决策链路里。

这比简单把VLA和WAM焊在一起高明。没有要求重新训练一个巨无霸统一模型，也没有废掉VLA已有的语义能力，而是让WAM去做自己最擅长的事：提供未来场景变化和动作轨迹的提示。

短期内VLA不可能被轻易替代。但纯VLA要学会物理动态，成本高得吓人。World Pilot给了一条更现实的过渡路径：VLA继续负责"知道要做什么"，WAM负责"预判怎么做更合理"。未来真正落地的机器人基础模型，大概率不是VLA和WAM二选一，而是这种世界先验驱动VLA的融合路线。

ω-EVA：动手之前，先用世界模型过一次安全检查

ω-EVA盯上的是动作执行前的最后一道防线。

绝大多数策略模型都是直接从观测映射到动作，哪怕引入了世界模型，也大多只在训练时当辅助监督，或者离线生成一段未来视频。问题是，机器人真正需要的是：执行前，先知道这个动作会导致什么后果。

ω-EVA的流程很清晰：Envision → Verify → Act。

Envision：策略先提出一个候选动作。

Verify：把这个候选动作送进latent world model，预测它可能导致的未来后果。

Act：通过一个tri-branch refiner，把当前状态、候选动作以及这个动作对应的未来后果一并考虑，生成最终动作。

这周WAM的三篇硬货：RepWAM、World Pilot、ω-EVA，把世界模型往真机决策里又推了一步图3

这跟人类做事很像。伸手拿杯子前，脑子会闪电般预判一下：这样抓会不会滑？这样推会不会碰倒旁边的瓶子？这一步之后任务还能不能继续？ω-EVA把这种动作前预检机制显式地做进了模型里。

关键是，ω-EVA的后果推理完全留在latent feature space里，不生成未来视频。所以不需要在推理时跑一套昂贵的视频解码器，对真机控制的实时性很友好。它不追求把未来画出来，只追求在latent里快速判断：这个候选动作的后果，到底行不行。

这跟τ0-WM、When to Trust Imagination最近的方向一致，都是在把WAM从被动预测器升级成动作反馈模块。区别在于，ω-EVA更强调轻量化的latent consequence reasoning，让世界模型成为策略内部的一个紧凑验证环节。

真实机器人任务里，大量失败不是出不了动作，而是动作执行前少了那一下后果检查。夹爪姿态偏了几度，双臂协作时一个动作挡了另一只手，当前这一步看似合理但会让后续步骤彻底走不通——这些失败，如果能在执行前被世界模型拦下来，系统稳定性会提升一大截。

ω-EVA也在重新定义WAM的角色：世界模型不一定非要自己生成最终动作，它可以扮演审稿人。策略出提案，世界模型做判断，refiner来修正。这样的系统，比单一policy更接近真实机器人需要的闭环决策。

放在一起看

RepWAM、World Pilot、ω-EVA不是三个孤立的方向，它们同时在补WAM走向真实机器人时绕不开的三块短板。

RepWAM补的是表示。tokenizer如果只服务像素重建，后面的动作控制就是在错误的latent空间里游泳。WAM需要的是语义化、动作相关、可对齐的视觉-动作表示。

World Pilot补的是融合。VLA有语言语义，WAM有动态先验。与其争论谁吃掉谁，不如让WAM成为VLA的物理插件，把世界动态变成可注入的感知和动作提示。

ω-EVA补的是验证。机器人不能对策略输出照单全收，必须先用世界模型做一次后果检查。这让WAM从预测模块，变成了动作决策链路里的安全阀。

几个很直接的信号。

做WAM不能只盯着视频生成质量。tokenizer和latent space不适合动作解码，画面再漂亮也带不来好策略。后续的数据处理和模型设计，得把重心往object motion、task progress、contact、trajectory、latent action这些和控制强相关的信息上倾斜。

VLA和WAM大概率是融合关系，不是替代关系。短期内VLA仍然是语义理解的底座，WAM更适合补动态预测和动作后果建模。真正可部署的系统，不会是一个巨无霸单模型，而是多个能力模块在决策链路里互相增强。

动作前验证会成为标配。真机试错成本摆在那里，尤其是双臂、人形、接触密集型任务。世界模型能在执行前过滤掉一批明显不靠谱的动作，系统鲁棒性会肉眼可见地提升。

世界模型要从生成结果走向提供接口。RepWAM提供表示接口，World Pilot提供先验接口，ω-EVA提供验证接口。未来WAM的价值，很大程度上就体现在这些接口能否被真实机器人系统稳定调用、低成本集成。

-END-

Ask Me Anything｜提问箱

❝
对文章有疑惑，或想聊更深？欢迎把你的问题丢给我们：技术方案、实操踩坑、课程与资料、项目合作、职业发展，都可以问。
怎么问：在评论区留言，或私信公众号
我们会做什么：每周集中整理高质量问题并公开回复，重点问题邀请作者或嘉宾深度解答；典型问题会加入知识库并持续更新。
提问小提示：尽量说明「你的目标—当前做法—期望产出」，附上必要信息（硬件/软件版本、数据规模等），能更快获得有用答案。
一起把问题变成知识，推动社区进步 🚀

这周WAM的三篇硬货：RepWAM、World Pilot、ω-EVA，把世界模型往真机决策里又推了一步图4