Xbot知识星球精选 | 宇树科技UnifoLM-WMA-0解析：机器人如何学会“想象未来”？

今天要为大家解析一个令人兴奋的开源项目——宇树科技（Unitree Robotics）在2025年开源的UnifoLM-WMA-0（统一世界模型-动作架构）

一、什么是世界模型？为什么它如此重要？

在深入解析UnifoLM-WMA-0之前，我们先来理解一个核心概念：世界模型。

想象一下，你要伸手去拿桌上的水杯。在行动之前，你的大脑会“模拟”这个动作：手应该怎么移动，会不会碰到其他东西，杯子会不会被打翻……

这种“模拟”能力就是世界模型的核心：

在大脑里构建一个“世界的复制品”，它让你能够预测动作的结果，从而做出更明智的决策。

对机器人来说，世界模型就是让它具备这种“想象未来”的能力。传统的机器人控制依赖于预先编程的规则或大量的试错训练，但这种方式在复杂多变的环境中显得力不从心。

世界模型通过学习和模拟环境的动态变化，让机器人能够预测自身动作的后果，从而更智能地规划行为。

UnifoLM-WMA-0的突破在于

它将世界模型 + 动作策略紧密结合，同时支持决策和仿真两种模式，适用于多种机器人平台和任务。

二、解析：UnifoLM-WMA-0的核心创新

1. 统一的世界模型-动作架构

传统的机器人学习，通常是“感知 → 决策 → 执行”，各模块之间割裂。

UnifoLM-WMA-0 把“世界模型”和“动作生成”结合在一起，形成闭环。世界模型不仅预测未来的环境视频，还通过“动作头”直接输出动作策略。这意味着机器人在做决策时，能够考虑到对未来环境的预判，从而做出更优的选择。

2. 双模式运行：决策与仿真

决策模式：基于当前观测（如图像、语言指令）预测未来的物理交互信息，辅助生成动作策略。

仿真模式：世界模型直接作为模拟引擎，根据给定的机器人动作生成高度逼真的环境反馈视频，模拟交互过程。

这一点类似于生成式对抗网络中的前向建模，但侧重物理交互，可视化为真实机器人“想象”未来场景。

3. 跨平台通用性

UnifoLM-WMA-0是专为通用机器人学习设计的，可以适配多种形态的机器人，包括机械臂、四足机器人、人形机器人等。

它通过在多场景数据集上训练，能够处理不同任务（如堆积物体、抓取定位、清理收纳等）的视觉与动作信息。

4. 开源与实机验证

宇树科技不仅开源了训练和推理代码、模型权重，还提供了详细的示例。

在真机演示中，UnifoLM-WMA-0已经成功应用于机械臂堆积积木、双臂协作收纳物品等任务，预测结果与实际操作高度吻合。

模型

描述

链接

UnifoLM-WMA-0Base

在 Open-X 数据集微调后的模型

HuggingFace

UnifoLM-WMA-0Dual

在五个宇树科技开源数据集上，决策和仿真双模式，联合微调后的模型

HuggingFace

三、框架解读：UnifoLM-WMA-0 怎么运作？

UnifoLM-WMA-0的整体架构围绕世界模型模块和动作策略模块展开，支持多模态输入（图像、状态、语言指令），输出包括未来视频帧和动作信号。具体来说，它可以分为以下几个部分：

1. 世界模型模块（World Model）

这是系统的核心，用于模拟物理交互。类似于条件视频生成网络，能够接受环境图像、机器人状态/动作信息和语言指令，预测未来的视频帧。

在决策模式下，世界模型对当前场景进行编码，然后迭代解码生成未来帧，同时将关键信息反馈给策略网络。

2. 动作策略模块

包括一个轻量的动作头或策略网络，用于生成机器人动作序列。

在决策模式中，动作头连接到世界模型的隐状态或预测输出，基于预测的未来信息生成动作信号。

不仅能预测 8 步或 16 步动作，还能处理更长时间的任务（比如十几秒的连续操作）。

3. 仿真模块

在仿真模式下，系统将已执行的动作序列作为输入，通过世界模型生成环境反馈视频。

例如，给定一段机械臂的取放动作，模型可以输出预测的场景变化视频。

下图展示了仿真模式架构：输入包括当前图像、机器人状态和一系列未来动作，世界模型生成未来帧和状态（右上未来视频及蓝色状态头），模拟出动作执行后的效果。

图片原自unitree官网

4. 输入输出形式

输入：当前环境图像（RGB视频帧）、机器人状态信息（关节角度、末端位置等，以 HDF5 文件保存）、语言指令。

输出：未来环境图像序列、机器人动作（决策模式）或状态（仿真模式）。

团队规范了数据格式：在训练数据中，所有视频文件存放在 videos/ 目录下，而机器人状态和动作以 .h5 文件形式存储在 transitions/ 目录，配合一个 CSV 文件对齐帧和状态

四、结构与运行流程

UnifoLM-WMA-0的开源代码在GitHub上发布（仓库名：unifolm-world-model-action）

代码架构

unifolm-world-model-action/

├── assets/ # 媒体资源（训练过程或结果图像、GIF 演示等）

├── configs/ # 配置文件（训练/推理的参数设置）

│ ├── train/ # 训练相关的 YAML/JSON 配置（模型参数、数据路径等）

│ └── inference/ # 推理相关配置（使用哪种模式、数据路径等）

├── examples/ # 示例输入与提示（如交互式仿真的示例 prompts）

├── external/ # 外部依赖库（例如集成的第三方代码包）

├── prepare_data/ # 数据预处理脚本（格式转换、数据切分等）

├── scripts/ # 运行脚本（训练、评估、仿真模式推理等）

└── src/

└── unitree_worldmodel/ # 核心 Python 包：世界模型和策略实现

├── data/ # 数据加载、变换和 DataLoader

├── models/ # 模型定义（网络架构、骨干）

├── modules/ # 自定义模块（如世界模型类、UNet、Transformer 结构）

└── utils/ # 工具函数（日志、指标计算等）

数据准备

训练数据需要遵循特定格式，包括视频目录（MP4文件）和状态目录（HDF5文件），以及一个CSV文件对齐图像与状态。例如：

target_dir/

├── videos/ # 视频文件

├── transitions/ # 状态和动作数据（HDF5格式）

└── dataset1_name.csv # 对齐表格

训练脚本与流程

项目中主要的训练脚本位于 scripts/train.sh

训练分为三个步骤：

1. 视频模型微调（Fine-tuning）：在Open-X数据集上微调视频生成模型，使其适配机器人场景。

2. 决策模式训练（Policy Training）：在目标任务数据上训练世界模型，优化预测未来视频和动作的能力。

3. 仿真模式训练：在同一数据上训练世界模型的仿真模式，使其更准确地还原环境反馈。

configs/train/config.yaml 中可以设置pretrained_checkpoint（加载第一步模型）

decision_making_only（是否只训练决策模式）等参数。

完成配置后，执行 bash scripts/train.sh 即可启动训练。

训练过程中，模型会同时优化视频生成损失和动作预测损失（即行为克隆风格的监督信号），最终得到可用于推理的检查点模型。

推理和仿真

项目提供了交互式仿真模式推理脚本（scripts/run_world_model_interaction.sh

使用时需要准备一个 prompt 目录，里面放置示例图片和对应的机器人状态/指令

格式可参考 examples/world_model_interaction_prompts

然后在配置文件 configs/inference/world_model_interaction.yaml 中指定 pretrained_checkpoint、data_dir 等。

运行该脚本即可看到世界模型生成的未来视频结果。该过程演示如何将模型作为“虚拟沙盘”让机器人进行模拟试验。

核心代码模块

src/unitree_worldmodel/models/：定义网络结构（如视频生成的UNet/Diffusion架构）。

src/unitree_worldmodel/modules/：包含世界模型总体结构的封装类。

src/unitree_worldmodel/data/：实现数据加载和处理的PyTorch Dataset和DataLoader。

五、模型技术细节：架构与训练

UnifoLM-WMA-0的世界模型基于扩散模型（Diffusion Model）生成视频序列，类似于DynamiCrafter等工作中使用的技术。训练时，模型输入当前视觉观测和文本指令/动作信息，生成未来连续视频帧。

训练目标与损失

视频生成：使用扩散模型的去噪损失，使生成的帧序列与真实视频匹配。

动作预测：通过行为克隆式的回归损失（如均方误差）拟合真实动作序列。

输入输出示例

决策模式：输入当前图像、文本指令（如“抓起摄像机”）和机器人状态；输出未来视频帧和动作序列。

仿真模式：输入当前图像和动作序列；输出模拟执行结果的未来视频和新状态。

六、对比分析：与其它主流世界模型

1. DreamerV3

Dreamer系列基于强化学习，通过学习隐空间动态实现策略优化，但主要面向游戏和模拟环境，不直接生成像素级视频。UnifoLM-WMA-0则注重真实机器人任务的视觉预测能力。

2. GENIE2（DeepMind）

GENIE2专注于生成虚拟游戏环境，而UnifoLM-WMA-0直接处理真实视频和物理场景，强调物理交互的现实性。

3. RT-2（Google）

RT-2利用大规模视觉-语言预训练模型生成动作序列，但不具备显式的环境仿真模块。UnifoLM-WMA-0则通过视频预测和仿真模式，提供了更全面的环境交互能力。

七、应用意义与场景

UnifoLM-WMA-0 的意义不仅在学术，更在于它打开了机器人落地的想象力。

1. 通用机器人学习

传统机器人每换一个场景或任务都要重新写规则或训练。而 UnifoLM-WMA-0通过世界模型，能让机器人能快速适应新任务。

2. 仿真加速

现实收集数据太贵 → 世界模型自带仿真引擎，可以生成高质量合成数据。

3. 决策优化

机器人能“未卜先知”，减少试错成本。

比如：搬运 fragile 物品时，可以先预测“是不是会掉”。

4. 多机器人形态支持

不仅四足机器人，双足、人形、机械臂都能用。

这意味着一个统一架构能支持不同机器人平台。

现实应用场景

家庭服务：帮忙收拾、分类物品。

灾难救援：预测路径是否会坍塌，选择安全路线。

仓储物流：优化抓取、放置动作，减少出错率。

工业装配：提前预测工件交互，保证精准操作

结语

UnifoLM-WMA-0是机器人领域的一个重要突破，它让机器人从“盲目执行”进化到“有脑子会思考”，这是走向通用机器人（General-Purpose Robot）的关键一步。

未来几年，我们可能会看到：

世界模型成为机器人标配，就像 LLM 成为对话 AI 标配。

家用机器人能在复杂环境里自主学习，而不是靠写死规则。

工业和救援场景的机器人更加智能，减少事故和失误。

参考资料：

UnifoLM-WMA-0 GitHub仓库