Xbot知识星球精选 | 宇树科技UnifoLM-WMA-0解析:机器人如何学会“想象未来”?

Xbot具身知识库 2025-09-23 17:32
资讯配图

今天要为大家解析一个令人兴奋的开源项目——宇树科技(Unitree Robotics)在2025年开源的UnifoLM-WMA-0(统一世界模型-动作架构)

 一、什么是世界模型?为什么它如此重要?


在深入解析UnifoLM-WMA-0之前,我们先来理解一个核心概念:世界模型。

想象一下,你要伸手去拿桌上的水杯。在行动之前,你的大脑会“模拟”这个动作:手应该怎么移动,会不会碰到其他东西,杯子会不会被打翻……

这种“模拟”能力就是世界模型的核心:

在大脑里构建一个“世界的复制品”,它让你能够预测动作的结果,从而做出更明智的决策。

对机器人来说,世界模型就是让它具备这种“想象未来”的能力。传统的机器人控制依赖于预先编程的规则或大量的试错训练,但这种方式在复杂多变的环境中显得力不从心。

世界模型通过学习和模拟环境的动态变化,让机器人能够预测自身动作的后果,从而更智能地规划行为。

UnifoLM-WMA-0的突破在于

它将世界模型 + 动作策略紧密结合,同时支持决策和仿真两种模式,适用于多种机器人平台和任务。

资讯配图

 二、解析:UnifoLM-WMA-0的核心创新


1. 统一的世界模型-动作架构

传统的机器人学习,通常是“感知 → 决策 → 执行”,各模块之间割裂。

UnifoLM-WMA-0 把“世界模型”和“动作生成”结合在一起,形成闭环。世界模型不仅预测未来的环境视频,还通过“动作头”直接输出动作策略。这意味着机器人在做决策时,能够考虑到对未来环境的预判,从而做出更优的选择。

2. 双模式运行:决策与仿真

决策模式:基于当前观测(如图像、语言指令)预测未来的物理交互信息,辅助生成动作策略。

仿真模式:世界模型直接作为模拟引擎,根据给定的机器人动作生成高度逼真的环境反馈视频,模拟交互过程。

这一点类似于生成式对抗网络中的前向建模,但侧重物理交互,可视化为真实机器人“想象”未来场景。

3. 跨平台通用性

UnifoLM-WMA-0是专为通用机器人学习设计的,可以适配多种形态的机器人,包括机械臂、四足机器人、人形机器人等。

它通过在多场景数据集上训练,能够处理不同任务(如堆积物体、抓取定位、清理收纳等)的视觉与动作信息。

4. 开源与实机验证

宇树科技不仅开源了训练和推理代码、模型权重,还提供了详细的示例。

在真机演示中,UnifoLM-WMA-0已经成功应用于机械臂堆积积木、双臂协作收纳物品等任务,预测结果与实际操作高度吻合。

模型

描述

链接

UnifoLM-WMA-0Base

 Open-X 数据集微调后的模型

HuggingFace

UnifoLM-WMA-0Dual

在五个宇树科技开源数据集上,决策和仿真双模式,联合微调后的模型

HuggingFace


 三、框架解读:UnifoLM-WMA-0 怎么运作?


UnifoLM-WMA-0的整体架构围绕世界模型模块和动作策略模块展开,支持多模态输入(图像、状态、语言指令),输出包括未来视频帧和动作信号。具体来说,它可以分为以下几个部分:

1. 世界模型模块(World Model)

这是系统的核心,用于模拟物理交互。类似于条件视频生成网络,能够接受环境图像、机器人状态/动作信息和语言指令,预测未来的视频帧。

在决策模式下,世界模型对当前场景进行编码,然后迭代解码生成未来帧,同时将关键信息反馈给策略网络。

2. 动作策略模块

包括一个轻量的动作头或策略网络,用于生成机器人动作序列。

在决策模式中,动作头连接到世界模型的隐状态或预测输出,基于预测的未来信息生成动作信号。

不仅能预测 8 步或 16 步动作,还能处理更长时间的任务(比如十几秒的连续操作)。

3. 仿真模块

在仿真模式下,系统将已执行的动作序列作为输入,通过世界模型生成环境反馈视频。

例如,给定一段机械臂的取放动作,模型可以输出预测的场景变化视频。

下图展示了仿真模式架构:输入包括当前图像、机器人状态和一系列未来动作,世界模型生成未来帧和状态(右上未来视频及蓝色状态头),模拟出动作执行后的效果。

资讯配图

图片原自unitree官网

4. 输入输出形式

输入:当前环境图像(RGB视频帧)、机器人状态信息(关节角度、末端位置等,以 HDF5 文件保存)、语言指令。

输出:未来环境图像序列、机器人动作(决策模式)或状态(仿真模式)。

团队规范了数据格式:在训练数据中,所有视频文件存放在 videos/ 目录下,而机器人状态和动作以 .h5 文件形式存储在 transitions/ 目录,配合一个 CSV 文件对齐帧和状态

  四、结构与运行流程


UnifoLM-WMA-0的开源代码在GitHub上发布(仓库名:unifolm-world-model-action)

代码架构

unifolm-world-model-action/

├── assets/             媒体资源(训练过程或结果图像、GIF 演示等)

├── configs/            配置文件(训练/推理的参数设置)

│   ├── train/          训练相关的 YAML/JSON 配置(模型参数、数据路径等)

│   └── inference/      推理相关配置(使用哪种模式、数据路径等)

├── examples/           示例输入与提示(如交互式仿真的示例 prompts

├── external/           外部依赖库(例如集成的第三方代码包)

├── prepare_data/       数据预处理脚本(格式转换、数据切分等)

├── scripts/            运行脚本(训练、评估、仿真模式推理等)

└── src/

    └── unitree_worldmodel/  核心 Python 包:世界模型和策略实现

         ├── data/       数据加载、变换和 DataLoader

         ├── models/     模型定义(网络架构、骨干)

         ├── modules/    自定义模块(如世界模型类、UNetTransformer 结构)

         └── utils/      工具函数(日志、指标计算等)


数据准备

训练数据需要遵循特定格式,包括视频目录(MP4文件)和状态目录(HDF5文件),以及一个CSV文件对齐图像与状态。例如:

target_dir/

├── videos/             视频文件

├── transitions/        状态和动作数据(HDF5格式)

└── dataset1_name.csv   对齐表格


训练脚本与流程

项目中主要的训练脚本位于 scripts/train.sh

训练分为三个步骤:

1. 视频模型微调(Fine-tuning):在Open-X数据集上微调视频生成模型,使其适配机器人场景。

2. 决策模式训练(Policy Training):在目标任务数据上训练世界模型,优化预测未来视频和动作的能力。

资讯配图

3. 仿真模式训练:在同一数据上训练世界模型的仿真模式,使其更准确地还原环境反馈。

资讯配图

configs/train/config.yaml 中可以设置pretrained_checkpoint(加载第一步模型)

decision_making_only(是否只训练决策模式)等参数。

完成配置后,执行 bash scripts/train.sh 即可启动训练。

训练过程中,模型会同时优化视频生成损失和动作预测损失(即行为克隆风格的监督信号),最终得到可用于推理的检查点模型。

推理和仿真

项目提供了交互式仿真模式推理脚本(scripts/run_world_model_interaction.sh

使用时需要准备一个 prompt 目录,里面放置示例图片和对应的机器人状态/指令

格式可参考 examples/world_model_interaction_prompts

然后在配置文件 configs/inference/world_model_interaction.yaml 中指定 pretrained_checkpoint、data_dir 等。

运行该脚本即可看到世界模型生成的未来视频结果。该过程演示如何将模型作为“虚拟沙盘”让机器人进行模拟试验。

核心代码模块

src/unitree_worldmodel/models/:定义网络结构(如视频生成的UNet/Diffusion架构)。

src/unitree_worldmodel/modules/:包含世界模型总体结构的封装类。

src/unitree_worldmodel/data/:实现数据加载和处理的PyTorch Dataset和DataLoader。

  五、模型技术细节:架构与训练


UnifoLM-WMA-0的世界模型基于扩散模型(Diffusion Model)生成视频序列,类似于DynamiCrafter等工作中使用的技术。训练时,模型输入当前视觉观测和文本指令/动作信息,生成未来连续视频帧。

训练目标与损失

视频生成:使用扩散模型的去噪损失,使生成的帧序列与真实视频匹配。

动作预测:通过行为克隆式的回归损失(如均方误差)拟合真实动作序列。

输入输出示例

决策模式:输入当前图像、文本指令(如“抓起摄像机”)和机器人状态;输出未来视频帧和动作序列。

仿真模式:输入当前图像和动作序列;输出模拟执行结果的未来视频和新状态。

  六、对比分析:与其它主流世界模型


1. DreamerV3

Dreamer系列基于强化学习,通过学习隐空间动态实现策略优化,但主要面向游戏和模拟环境,不直接生成像素级视频。UnifoLM-WMA-0则注重真实机器人任务的视觉预测能力。

2. GENIE2(DeepMind)

GENIE2专注于生成虚拟游戏环境,而UnifoLM-WMA-0直接处理真实视频和物理场景,强调物理交互的现实性。

3. RT-2(Google)

RT-2利用大规模视觉-语言预训练模型生成动作序列,但不具备显式的环境仿真模块。UnifoLM-WMA-0则通过视频预测和仿真模式,提供了更全面的环境交互能力。

  七、应用意义与场景


UnifoLM-WMA-0 的意义不仅在学术,更在于它打开了机器人落地的想象力。

1. 通用机器人学习

传统机器人每换一个场景或任务都要重新写规则或训练。而 UnifoLM-WMA-0通过世界模型,能让机器人能快速适应新任务。

2. 仿真加速

现实收集数据太贵 → 世界模型自带仿真引擎,可以生成高质量合成数据。

3. 决策优化

机器人能“未卜先知”,减少试错成本。

比如:搬运 fragile 物品时,可以先预测“是不是会掉”。

4. 多机器人形态支持

不仅四足机器人,双足、人形、机械臂都能用。

这意味着一个统一架构能支持不同机器人平台。

现实应用场景

家庭服务:帮忙收拾、分类物品。

灾难救援:预测路径是否会坍塌,选择安全路线。

仓储物流:优化抓取、放置动作,减少出错率。

工业装配:提前预测工件交互,保证精准操作

  结语


UnifoLM-WMA-0是机器人领域的一个重要突破,它让机器人从“盲目执行”进化到“有脑子会思考”,这是走向通用机器人(General-Purpose Robot)的关键一步。

未来几年,我们可能会看到:

世界模型成为机器人标配,就像 LLM 成为对话 AI 标配。

家用机器人能在复杂环境里自主学习,而不是靠写死规则。

工业和救援场景的机器人更加智能,减少事故和失误。

参考资料:

UnifoLM-WMA-0 GitHub仓库

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
【火热报名中】2025具身智能移动机器人产业峰会
让机器人“开窍”,清华教授孙富春解码具身智能的“发育”
DeepMind 颠覆机器人学习范式:让机器像人一样 “自由成长”
从“单点突破”到“生态共赢”,海康机器人再亮三大底牌
MBZUAI 机器人实验室招收2026 Fall 全奖博士生/访问研究生等
操作精度和场景适应性首超点云!地瓜机器人提出纯视觉机器人操作方法VO-DP
【报告】机器人专题四:人形机器人行业深度报告:人形轻量化大势所趋,镁合金&“以塑代钢”是核心(附PDF下载)
AI智能机器人独角兽,100%控股宝马子公司!
机器人圈的「新卷王」是谁?原力无限用一颗AI大脑给出答案
2亿投资,流向机器人一体化关节
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号