这周WAM的三篇硬货:RepWAM、World Pilot、ω-EVA,把世界模型往真机决策里又推了一步

Xbot具身知识库 2026-06-18 11:14

点击下方卡片,关注【Xbotics具身智能实验室】公众号

更多具身干货,欢迎加入(戳我)

👉具身智能学习资料汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide

👉具身智能求职/实习信息汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job

你想要的这里都有~~



WAM这半年确实火得快。DreamZero、Motus、Cosmos Policy几篇工作之后,圈子里基本有个共识了——机器人光看当前图像出动作不够,得能想象动作之后世界会变成什么样。但这周的势头明显变了。大家不再围着"预测未来准不准"打转,开始抠三个更实际的问题:预测出来的未来,动作模型到底能不能看懂?VLA能不能把WAM的动态先验变成自己的物理直觉?以及,机器人动手之前,能不能先用世界模型过一遍后果?

RepWAM、World Pilot、ω-EVA刚好各啃一个。

RepWAM:画面像不像没那么重要,关键是动作模型得能读懂底层表示

RepWAM这篇值得细读。它直接挑战了WAM的一个底层假设:很多世界动作模型用的tokenizer,可能从一开始路就偏了。

现在不少WAM直接拿视频生成模型的tokenizer来用。这类tokenizer的目标很单纯——重建像素,画面越保真越好。颜色、纹理、背景细节都留得很足,做视频生成没问题。但机器人控制不是拍电影。机器人真正在意的,不是桌面纹理清不清晰,杯子边缘渲得漂不漂亮,而是:这个物体会不会动?任务相关的变化发生在哪?语言指令对应的动作会带来什么视觉后果?

RepWAM的判断是:重建导向的tokenizer,可根本不适合WAM。

像素重建只能告诉模型"未来画面长什么样",却很难告诉它"为了完成指令,哪些视觉变化和动作真正相关"。tokenizer把模型容量浪费在背景和无关细节上,后续的动作生成器就很难从latent空间里读出有用的控制信息。

这周WAM的三篇硬货:RepWAM、World Pilot、ω-EVA,把世界模型往真机决策里又推了一步图1

所以RepWAM转向了representation-centric路线。它训练了一个representation visual-action tokenizer,把视觉输入映射到对齐的visual tokens和latent action tokens,然后在语言指令下,联合建模未来视觉状态以及连接这些状态的潜在动作。不让模型学"复原画面",而是让它学"哪些视觉变化对应哪些可执行动作"。

Mask World Model、RLA-WM、JOPAT其实也有类似思路,但RepWAM把问题压得更底层。不是在模型头上打补丁,而是直接重新设计视觉-动作tokenization的基础接口。世界模型如果挂在错误的表示上,后面做再多未来预测、动作解码、闭环控制,都可能是在一个不适合控制的latent空间里修修补补。

World Pilot:不是取代VLA,而是给VLA补物理直觉

World Pilot适合放在VLA和WAM融合这个视角下看。

过去聊VLA和WAM,很容易站队。VLA强在语言理解和语义泛化,但物理动态建模天生是短板;WAM强在预测世界变化,语言推理和长程任务分解不一定顺手。World Pilot的态度很务实:VLA语义能力已经很强,不如用WAM给它补上物理直觉。

这周WAM的三篇硬货:RepWAM、World Pilot、ω-EVA,把世界模型往真机决策里又推了一步图2

两件事都做得挺漂亮。

一是Latent Steering。把WAM生成的scene-evolution latent注入VLA的perception layer。VLA看当前图像时,不再是只看一张静态快照,而是带着一点"场景接下来可能会怎么变"的动态预期。

二是Action Steering。把WAM生成的anticipated trajectory作为运动先验,给action generator。VLA生成动作时,不再只靠语言和图像硬猜,而是有一条未来轨迹做提示。

一个影响感知,一个影响动作。VLA看世界时更有时间感,出动作时更有运动线索。这正好打中了VLA的最大软肋:很多VLA的预训练来自静态图文对,它们知道物体是什么、任务语义是什么,但很难理解接触、推拉、变形、遮挡这类连续物理过程。World Pilot把WAM的动态预测能力包装成一种外部直觉,插进VLA的决策链路里。

这比简单把VLA和WAM焊在一起高明。没有要求重新训练一个巨无霸统一模型,也没有废掉VLA已有的语义能力,而是让WAM去做自己最擅长的事:提供未来场景变化和动作轨迹的提示。

短期内VLA不可能被轻易替代。但纯VLA要学会物理动态,成本高得吓人。World Pilot给了一条更现实的过渡路径:VLA继续负责"知道要做什么",WAM负责"预判怎么做更合理"。未来真正落地的机器人基础模型,大概率不是VLA和WAM二选一,而是这种世界先验驱动VLA的融合路线。

ω-EVA:动手之前,先用世界模型过一次安全检查

ω-EVA盯上的是动作执行前的最后一道防线。

绝大多数策略模型都是直接从观测映射到动作,哪怕引入了世界模型,也大多只在训练时当辅助监督,或者离线生成一段未来视频。问题是,机器人真正需要的是:执行前,先知道这个动作会导致什么后果。

ω-EVA的流程很清晰:Envision → Verify → Act。

Envision:策略先提出一个候选动作。

Verify:把这个候选动作送进latent world model,预测它可能导致的未来后果。

Act:通过一个tri-branch refiner,把当前状态、候选动作以及这个动作对应的未来后果一并考虑,生成最终动作。

这周WAM的三篇硬货:RepWAM、World Pilot、ω-EVA,把世界模型往真机决策里又推了一步图3

这跟人类做事很像。伸手拿杯子前,脑子会闪电般预判一下:这样抓会不会滑?这样推会不会碰倒旁边的瓶子?这一步之后任务还能不能继续?ω-EVA把这种动作前预检机制显式地做进了模型里。

关键是ω-EVA的后果理完全留在latent feature space里,不生成未来视频。所以不需要在推理时跑一套昂贵的视频解码器,对真机控制的实时性很友好。它不追求把未来画出来,只追求在latent里快速判断:这个候选动作的后果,到底行不行。

这跟τ0-WM、When to Trust Imagination最近的方向一致,都是在把WAM从被动预测器升级成动作反馈模块。区别在于,ω-EVA更强调轻量化的latent consequence reasoning,让世界模型成为策略内部的一个紧凑验证环节。

真实机器人任务里,大量失败不是出不了动作,而是动作执行前少了那一下后果检查。夹爪姿态偏了几度,双臂协作时一个动作挡了另一只手,当前这一步看似合理但会让后续步骤彻底走不通——这些失败,如果能在执行前被世界模型拦下来,系统稳定性会提升一大截。

ω-EVA也在重新定义WAM的角色:世界模型不一定非要自己生成最终动作,它可以扮演审稿人。策略出提案,世界模型做判断,refiner来修正。这样的系统,比单一policy更接近真实机器人需要的闭环决策。

放在一起看

RepWAM、World Pilot、ω-EVA不是三个孤立的方向,它们同时在补WAM走向真实机器人时绕不开的三块短板。

RepWAM补的是表示。tokenizer如果只服务像素重建,后面的动作控制就是在错误的latent空间里游泳。WAM需要的是语义化、动作相关、可对齐的视觉-动作表示。

World Pilot补的是融合。VLA有语言语义,WAM有动态先验。与其争论谁吃掉谁,不如让WAM成为VLA的物理插件,把世界动态变成可注入的感知和动作提示。

ω-EVA补是验证。机器人不能对策略输出照单全收,必须先用世界模型做一次后果检查。这让WAM从预测模块,变成了动作决策链路里的安全阀。

几个很直接的信号。

做WAM不能只盯着视频生成质量。tokenizer和latent space不适合动作解码,画面再漂亮也带不来好策略。后续的数据处理和模型设计,得把重心往object motion、task progress、contact、trajectory、latent action这些和控制强相关的信息上倾斜。

VLA和WAM大概率是融合关系,不是替代关系。短期内VLA仍然是语义理解的底座,WAM更适合补动态预测和动作后果建模。真正可部署的系统,不会是一个巨无霸单模型,而是多个能力模块在决策链路里互相增强。

动作前验证会成为标配。真机试错成本摆在那里,尤其是双臂、人形、接触密集型任务。世界模型能在执行前过滤掉一批明显不靠谱的动作,系统鲁棒性会肉眼可见地提升。

世界模型要从生成结果走向提供接口。RepWAM提供表示接口,World Pilot提供先验接口,ω-EVA提供验证接口。未来WAM的价值,很大程度上就体现在这些接口能否被真实机器人系统稳定调用、低成本集成。


-END-

Ask Me Anything|提问箱

对文章有疑惑,或想聊更深?欢迎把你的问题丢给我们:技术方案、实操踩坑、课程与资料、项目合作、职业发展,都可以问。

怎么问:在评论区留言,或私信公众号

我们会做什么:每周集中整理高质量问题并公开回复,重点问题邀请作者或嘉宾深度解答;典型问题会加入知识库并持续更新。

提问小提示:尽量说明「你的目标—当前做法—期望产出」,附上必要信息(硬件/软件版本、数据规模等),能更快获得有用答案。

一起把问题变成知识,推动社区进步 🚀

这周WAM的三篇硬货:RepWAM、World Pilot、ω-EVA,把世界模型往真机决策里又推了一步图4

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
苹果加速布局3D打印铝外壳技术,Neo品牌或延伸至Apple Watch
2025年中国工业级3D打印设备行业市场深度分析及投资战略咨询报告
粉末“印”证报国心,这个技术骨干爱上3D打印
引爆焦点丨FormnextAsia深圳展洞见3D打印技术内核,链接全球产业商机
离开大疆后,他年入百亿,把3D打印机干到世界第一
知名品牌终端在线征集PCL颗粒3D打印供应商 名额有限 报名从速
一次看尽3D打印全流程:从激光器到后处理设备,这些新品,让生产更轻松高效!
我国科学家成功3D打印可跳动人体心脏类器官,器官再生迈出关键一步
某硬件大厂GM因不愿加班遭解雇;硬件赛道过于狂热,投资人搞小动作抢项目;3D打印公司自研3D大模型丨鲸犀情报局Vol.19
OPPO联合先导智能攻克折痕难题:芯片级3D打印首次量产
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号