点击下方卡片，关注【Xbotics具身智能实验室】公众号

更多具身干货，欢迎加入（戳我）

👉具身智能学习资料汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide

👉具身智能求职/实习信息汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job

你想要的这里都有~~

世界从来不是均匀展开的。有些瞬间决定一切，有些瞬间无关紧要。但今天的世界模型，却在用同一种节奏预测所有时刻。

固定频率的预测，让模型在大量无关紧要的瞬间反复“刷新”，却又频繁在帧与帧的"空隙"里，错过真正关键的事件。它们看似在预测未来，实则从未学会分辨什么值得被预测。

自变量机器人推出WALL-WM——首个具备"事件级预测能力"的世界模型，跳出"按时间均匀采样"的旧范式，模型不再机械地预测每一帧，而是判断哪些瞬间真正重要。

一个被忽视的根本问题

目前的行业中主流VLA几乎都在做同一件事：以视频或多模态基础模型为起点，直接预测固定长度的动作集合。

但自变量团队在WALL-WM中明确指出了这套范式的隐性代价——文本、视觉、动作根本不在同一个流形上。文本是低熵离散的语义意图，视觉是高维连续的观测流，动作则受物理与接触约束。三者既不共享"邻域"，也不共享时间尺度，直接联合优化，会让继承自视频基础模型的基础能力在适配中被悄悄扭曲。

这就是为什么很多VLA在真机上的表现，远不如其底座VLM应有的水平，因为先验在迁移中被损耗了。

WALL-WM的底层范式革新：把"事件"作为对齐的原子单位

视频-动作学习的最小语义单元，到底应该是什么？

主流答案是"固定时间长度动作块"，但动作块是时间上的人为定义，可能横跨"接近"与"接触"两个截然不同的物理阶段，模型被迫在歧义中学习。

Wall-WM的答案是Action-GroundedSemantic Event（以动作为中心的语义事件）：伸手、抓取、提起、移动、放置，一段时间上连贯、可执行的行为片段。它可被语言精确描述、可被视频时序覆盖、可被动作轨迹执行，是连接三种模态的天然枢纽。

更关键的是，事件级世界预测让模型学到的不再是"指令 → 动作"的反应式映射，而是在此事件下，物理世界将如何演化、模型应当如何执行，这才是世界模型应有的形态。

从底层洞察到架构设计：三个关键动作

1、先验对齐的视频-动作联合去噪。

视觉模块承载互联网规模的视觉动态先验：动作模块随机初始化，与视频模块在每一层做单向耦合；跨视角融合分支的输出投影则零初始化，保证训练起步等价于原单视角先验。

动作流读取视觉语言表征，梯度不会反向污染视频先验。这套共享的隐空间，相当于一种宽度可调的隐式动作表示：无需事先猜测码本，通过大规模训练时同时达到“保持先验”与"动作能力持续增长"。这是绝大多数 VLA 在大规模训练时做不到的。

2、Multi-view attention用来让模型在多路相机之间交换信息，而不是把每个视角当作彼此独立的视频流处理。

具体来说，模型先保留Wan原有的单视角时空注意力，用它继承已有的视频生成先验；随后在每个DiT block中加入cross-view attention，把同一时间帧下来自不同相机的空间token放到一起做信息交互。这样既能利用多视角之间的几何互补性，又不会破坏预训练backbone的单视角能力。

训练时还会配合sight-cone mask约束跨视角token只在几何上可能共视的区域通信，从而减少无意义的跨相机混合。整体作用是提升多视角一致性、3D 感知和机器人操作场景中的遮挡鲁棒性。

几何感知的多视角融合。真实机器人通常配备头部 + 双腕多相机视角，朴素的跨视角注意力容易退化为"通用特征混合器"。Wall-WM提出了一对互补机制：视锥掩码与管状掩码

视锥掩码是基于相机标定的视锥相交关系，从拓扑层面禁止物理不可能的关联；

管状掩码随机掩盖某视角的时空管状区域，强迫模型经由其他视角恢复。

视锥掩码约束注意力能去哪，而管状掩码则逼迫它必须去。跨视角注意力由此从"欠拟合的潜在能力"锻造为"被频繁使用的几何对应关系"。配合可学习的相机旋转位置编码，天然支持多本体多视角的大规模训练。

3、StaircaseDecoding（阶梯式思维链解码）。

CoT能提升决策质量，但逐 token 解码太慢，机器人操作等不起。主流的Latent CoT把思考压成连续向量换速度，代价是再也看不到模型在想什么。WALL-WM的做法是底层只跑一次、高层像阶梯一样并行展开。

CoT仍是离散可读的文本（冻结LLM就能完整还原），但解码延迟大幅下降，原生兼容 KV-Cache，兼顾可解释性与实时性。

同一个基座，两种推理模式

WALL-WM 在同一套权重上支持两种部署模式，对应不同的使用场景：

事件模式（Event Mode）：以"下一个事件描述"为条件，输出变长的动作块。适合上层已有规划器、能把任务拆成清晰子事件的场景。一次预测一个完整动作单元，自然贴合事件边界。
统一模式（Unified Mode）：由视觉语言模型配合阶梯式思维链解码在线生成中间推理，并以固定长度的动作块为条件输出。适合没有外部规划器、需要恒定控制频率的端到端实时部署。

两种模式共享同一套权重，可在执行过程中按动作块逐段切换，无需任何重训。这意味着同一个模型，既能作为底层执行器配合高层规划器工作，也能脱离规划器独立跑完整闭环。部署形态由场景决定，而不是由模型决定。

数据与基础设施：事件级生态的系统性配套

金字塔式数据结构：最底层的是百万量级的网络通用视频，收窄人类操作类视频和第一人称公开数据，接下来逐层分别是UMI 风格的无本体采集（来自于自变量全自研的XRZero-G0无本体数采设备）、异构遥操作数据、几何一致的自采数据，而位于金字塔顶端的是事件级的接管与纠错数据。每一层都是对上一层某条约束的可控放松，越往上越贴近真机部署，越往下越接近开放世界的视觉先验。

数据map：训练数据组织为覆盖不同视角与动作可用性的 data-source map。数据来源包括通用互联网视频、第一人称/人类操作视频、UMI 风格的无本体采集数据（来自于自变量全自研的XRZero-G0无本体数采设备），以及异构遥操作和开放机器人数据。通用视频提供大规模视觉与时序动态先验；此外接管与纠错数据作为中心恢复数据源，用于补充接触密集区域和失败恢复行为，并可与多个来源组合采样。

四级层级化标注 + 双聚类采样：每条轨迹都在任务、子任务、动作、片段四个粒度上被标注。报告中有一个值得注意的发现：当文本描述按动作边界切分后，语言分布与视觉-语言联合分布都显著更均衡了。长尾的稀有指令-场景组合会被自然地暴露给训练采样器。这是事件级范式在数据工程层面的隐性收益，并非刻意为之。

分布式Muon 优化器+ FP8 部署：训练侧，团队把 Muon 优化器做了分布式改造，让它在大规模训练里的额外开销从"瓶颈"降到了可以忽略的水平，并将这套分布式实现命名为 DMuon；同时采用"多事件打包成一条序列"的方式喂数据，避免了传统按整条轨迹训练时、因为每条轨迹长短不一而不得不补一堆空白 token 的浪费。部署侧，通过 FP8 低精度量化加上分布匹配蒸馏，把扩散模型的推理延迟压进了机器人实时控制能接受的区间：训练更省、推理更快，两端同时打通。

实验：大规模真机泛化最佳

Embodied Video Generation：相比Wan2.1/Wan2.2，WALL-WM在 Motion Quality、Semantic Consistency、Physical Plausibility三个具身相关维度全面领先；

3D Awareness（CO3Dv2）：在Point Error与Depth Error上优于WAN2.1-14B、Open-Sora 2.0、V-JEPA、DINOv2；

真机Core15 L1基准：基础任务、推理任务、灵巧操作、泛化场景下取得的任务完成分数，均显著超过π0.5、DreamZero，在抽象指令设定下是当前完成度最高的L1模型之一。

结语

WALL-WM 真正的价值，不在于又一个跑分更高的 VLA，而在于它把"如何在保留多模态先验几何的同时让模型学会预测世界"这个具身基础模型的根本问题，给出了一套自洽的工程化答案：

事件，不只是一个标注粒度，而是世界模型应有的思考单位。

GitHub：

https://github.com/X-Square-Robot/wall-x

项目主页：

https://x2robot.com/pages/wm

-END-

Ask Me Anything｜提问箱

❝
对文章有疑惑，或想聊更深？欢迎把你的问题丢给我们：技术方案、实操踩坑、课程与资料、项目合作、职业发展，都可以问。
怎么问：在评论区留言，或私信公众号
我们会做什么：每周集中整理高质量问题并公开回复，重点问题邀请作者或嘉宾深度解答；典型问题会加入知识库并持续更新。
提问小提示：尽量说明「你的目标—当前做法—期望产出」，附上必要信息（硬件/软件版本、数据规模等），能更快获得有用答案。
一起把问题变成知识，推动社区进步 🚀