世界模型专栏|τ0-WM、WLA、OSCAR 三篇新工作,正在把 WAM 从“动作生成器”推向“机器人决策系统”

Xbot具身知识库 2026-06-09 11:58

点击下方卡片,关注【Xbotics具身智能实验室】公众号

更多具身干货,欢迎加入(戳我)

👉具身智能学习资料汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide

👉具身智能求职/实习信息汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job

你想要的这里都有~~



过去半年,世界动作模型(WAM)几乎成了具身智能最值得追踪的技术路线。从 DreamZero、Motus 到 Cosmos Policy、Fast-WAM,这条路线已经回答了一个关键问题:视频世界模型能不能变成机器人策略?答案是能,而且泛化能力经常超过传统 VLA。但这一周的新工作,开始追问三个更致命的问题——世界模型能不能不只预测未来,而是评估动作后果?VLA 的语言推理和 WAM 的物理预测能不能合体?不同机器人的动作空间千奇百怪,世界模型能不能用一个统一接口来评估它们? τ0-WM、WLA、OSCAR 三篇,正好对应这三个追问。它们的共同信号只有一个:WAM 正在从“动作生成器”,走向“机器人决策系统”。

一、τ0-WM:机器人不只要出动作,还要在执行前评估后果

这周最值得放在第一位的是 τ0-WM。它的定位一句话就能说清楚:一个统一的视频-动作世界模型,同时能做三件事——action generation、video prediction、action-conditioned future evaluation。

这三个词放在一起,代表的是一次 WAM 能力边界的重大扩展。

世界模型专栏|τ0-WM、WLA、OSCAR 三篇新工作,正在把 WAM 从“动作生成器”推向“机器人决策系统”图1

传统 VLA 更像一个直接策略:输入当前图像和语言指令,输出动作。它的核心问题是:模型很少显式回答“这个动作执行后,世界会变成什么样”。 如果动作错了,只有真机执行后才知道。在仿真里,试错成本可能是几分钱;在真实机器人上,试错成本可能是几小时甚至几天,还要搭上设备损耗的风险。

τ0-WM 的思路完全不同。它的流程是:先提案候选动作,再用世界模型预测这些动作可能导致的未来,然后对每一个未来结果进行评估。如果评估结果差,模型可以修正动作,形成 proposal–evaluation–revision 的闭环。

这就是从“生成动作”到“动作前决策”的质变。

真实机器人任务里,很多失败并不是因为动作不会生成,而是因为动作缺少后果评估。比如机器人要把一个易碎物体放进盒子,直接生成一个抓放动作也许能完成,但如果没有评估,它可能不知道这个角度会不会碰到边缘、物体会不会滑落、后续是否还能继续任务。τ0-WM 让机器人在执行前,先用世界模型“想一想这个动作到底靠不靠谱”。

这也是 WAM 相比纯 VLA 最值得期待的地方。VLA 擅长理解任务语义,但面对复杂物理后果时,往往缺少显式建模。WAM 则可以把“动作导致未来变化”这件事内化成模型能力的一部分。τ0-WM 把这种能力显式化成了一个可评估、可修正的流程。

更值得关注的是它的工程底座。τ0-WM 来自智元 Finch 团队,项目页显示这是一个 5B 参数的开源统一视频-动作世界模型,训练数据覆盖大量真实机器人遥操作、UMI-style 演示和第一视角交互视频。这说明 WAM 正在进入大规模真实数据训练阶段,而不是只停留在小规模仿真或单机器人平台上。

用一句话概括 τ0-WM 的价值:它的重点不是让机器人更会“动”,而是让机器人在动之前更会“判断”。

二、WLA:把 VLA 的语言推理和 WAM 的物理预测接起来

如果 τ0-WM 更偏 WAM 主线,那 WLA 这篇的意义在于:它尝试把 VLA 和 WAM 两条曾经经常被对立讨论的路线,焊进同一个模型里。

过去 VLA 和 WAM 各有各的强项,也各有各的盲区。

VLA 的优势在语言理解和任务分解。用户说一句“先把桌上的东西收拾干净,再把杯子放到水槽旁边”,VLA 能比较自然地解析出任务层级和子目标。但它的短板也很明显:底座多来自图文预训练,对物理动态和未来状态变化缺乏显式建模。它知道“杯子是什么”,但不一定知道“杯子被推一下会怎么动”。

WAM 正好相反。它擅长建模世界动态,知道动作会导致怎样的未来变化,但在语言推理、复杂指令解析、长程任务分解上,未必有 VLA 那么自然流畅。

WLA 的目标就是把这两者接起来。 它把文本指令、图像和机器人状态作为输入,同时预测三类东西:文本子任务、subgoal image 和机器人动作。也就是说,模型不是只输出动作,而是同时学会“语言层面的任务意图”和“物理层面的未来变化”。

世界模型专栏|τ0-WM、WLA、OSCAR 三篇新工作,正在把 WAM 从“动作生成器”推向“机器人决策系统”图2

这个设计非常巧妙。文本子任务负责高层语义——当前应该先拿杯子还是先开抽屉;subgoal image 负责物理目标——下一步世界应该变成什么样;动作则负责把机器人真正驱动过去。WLA 不再是纯 VLA,也不是纯 WAM,而更像一个 World-Language-Action 的统一模型。

技术选型上也很值得注意。WLA 使用自回归 Transformer,而不是很多 WAM 使用的双向 diffusion Transformer。它希望通过 next state 预测,把语义意图和细粒度物理动态都放进同一个下一状态建模里。

论文中还埋了一个很工程化的设计:世界预测可以在训练时帮助动作生成,但推理时可以关闭以提速;如果需要更强控制,也可以打开世界预测做 test-time scaling。这意味着模型可以根据任务复杂度动态切换推理深度——平时快跑,关键步骤多想几步。

这可能是未来 VLA + WAM 融合的一个重要方向。真正的机器人基础模型,既不能只有语言,也不能只有世界模型。只有语言会缺物理,只有世界预测会缺任务理解。WLA 的价值就在于,它把“下一步该做什么”和“做了以后世界应该怎么变”放进了同一个模型里。

三、OSCAR:跨本体世界模型,关键在于动作接口统一

第三篇 OSCAR 解决的是一个更现实、也更头疼的问题:不同机器人本体的动作空间完全不一样,世界模型怎么才能跨本体泛化?

一个 Franka 机械臂是 7 维末端动作,一个 ALOHA 双臂是多个关节角的组合,一个人形机器人可能是全身几十个自由度,人手视频更是连动作标签都没有。传统 action-conditioned video world model 会直接把动作 token 作为条件输入,但动作 token 往往和具体本体深度绑定。一个机器人上学到的控制表征,换到另一个机器人上可能完全不成立。

这就导致一个很尴尬的局面:世界模型很难吃下大规模跨本体数据。而吃不下跨本体数据,就很难成为真正的机器人基础模型。

世界模型专栏|τ0-WM、WLA、OSCAR 三篇新工作,正在把 WAM 从“动作生成器”推向“机器人决策系统”图3

OSCAR 的思路非常巧妙:不要直接用原始动作,而是把动作渲染成 2D 运动学骨架。

这个设计看起来简单,但实用性极强。不同机器人虽然控制空间千差万别,但在图像中表现出来的“身体结构怎么动”,可以用一种更统一的视觉形式来表达。机械臂可以渲染成骨架,人手也可以渲染成骨架,动作条件就从“机器人专属控制向量”变成了“视觉上可理解的运动结构”。

这其实和最近几周很多工作的趋势是一致的:动作不一定非要以低维数字形式进入世界模型,它可以变成点轨迹、mask、视觉动作场、骨架渲染。因为视频世界模型本身更擅长处理视觉空间里的运动,而不是直接理解不同机器人本体的控制坐标。

OSCAR 的另一个重点是策略评估。它不是只生成好看的机器人视频,而是希望用生成世界去评估 robot policy。项目强调,它训练了 action-conditioned video world model,并进一步用于 RoboArena policy evaluation。论文也指出,OSCAR 的虚拟策略评估结果和真实世界评估之间存在显著相关性。

这件事的价值怎么强调都不过分。 真实机器人评估成本太高——每个策略都上真机跑大量任务,慢、贵,还容易损坏设备。如果世界模型能成为一个足够可信的“虚拟评估器”,机器人算法的迭代速度会大幅提升。先在生成世界里筛选策略,再把少数高潜力策略放到真机上验证——这才是可规模化的研发流程。

当然,这里最大的挑战是评估器本身的可靠性。如果世界模型会幻觉,或者对错误动作过于乐观,评估就会失真。但 OSCAR 的方向无疑是对的。

一句话总结 OSCAR:用 2D kinematic skeleton rendering 做跨本体动作接口,把 world model 从视频生成推向策略评估。

四、这一周的共同趋势:WAM 正在从模型变成系统

把 τ0-WM、WLA、OSCAR 放在一起看,会发现它们其实在回答三个不同但高度相关的问题:

  • τ0-WM 问的是: 机器人能不能在执行前评估动作后果?
  • WLA 问的是: 语言推理和世界建模能不能合成一个模型?
  • OSCAR 问的是: 不同机器人本体能不能共享一个 action-conditioned world model,并用于策略评估?

这三个问题背后,是同一个更大的趋势:WAM 正在从“单个模型能力”走向“机器人系统能力”。

早期 WAM 更强调生成能力——模型能不能预测未来视频?能不能从未来视频反推动作?能不能比 VLA 泛化更好?这些问题当然重要,但它们本质上还是在比“模型强不强”。

现在大家开始追问系统问题。 动作生成前有没有评估环节?长程任务有没有语言分解?跨本体动作有没有统一接口?世界模型能不能成为策略测试场?推理时能不能在速度和深度之间动态切换?

这意味着,世界模型正在变成机器人决策系统中的一个核心组件,而不是一个独立的生成模块。未来真正可用的机器人世界模型,可能会同时承担多种角色:

  • 它是策略模型,直接生成动作
  • 它是预测模型,想象未来状态
  • 它是评估模型,判断候选动作是否可靠
  • 它是语言模型,理解复杂任务和子目标
  • 它是仿真器,帮助筛选和比较不同策略

τ0-WM 让世界模型参与动作评估和修正。WLA 把语言推理、世界预测和动作合成放到一起。OSCAR 尝试用统一动作表示,让世界模型跨本体评估策略。这三篇,共同指向了这个“世界模型即系统”的未来。


-END-

Ask Me Anything|提问箱

对文章有疑惑,或想聊更深?欢迎把你的问题丢给我们:技术方案、实操踩坑、课程与资料、项目合作、职业发展,都可以问。

怎么问:在评论区留言,或私信公众号

我们会做什么:每周集中整理高质量问题并公开回复,重点问题邀请作者或嘉宾深度解答;典型问题会加入知识库并持续更新。

提问小提示:尽量说明「你的目标—当前做法—期望产出」,附上必要信息(硬件/软件版本、数据规模等),能更快获得有用答案。

一起把问题变成知识,推动社区进步 🚀

世界模型专栏|τ0-WM、WLA、OSCAR 三篇新工作,正在把 WAM 从“动作生成器”推向“机器人决策系统”图4

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR 机器人
more
RTX Spark首测曝光:能效比碾压x86,多核编译力压苹果M5
泼冷水!英伟达RTX Spark确实强,但在Agent时代不算好电脑
AI成功率从20%飙到100%!只需一个Harness文件
嵌入式系统研讨会和物联网2026 Embarcados无线连接研讨会
τ-Aware_Signoff——韬定律落地的EDA基石
看完RoboArena的榜单后沉默了,具身模型有哪些坑可以做?
Google瞧不上Harness:发更强TPU搞Agent全家桶,还随手替苹果发布了新Siri
热门Harness项目OpenSquilla:拯救烧token烧到绝望的Agent们,估值1亿
仅2秒!FFAvatar:前馈重建可动画3D高斯头像,PSNR暴涨5.5dB!
行业财报 | 耐克、阿迪达斯、Zara、优衣库、H&M、海澜之家等29家运动用品和服装企业2026年第一季度业绩汇总
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号