
开源,正在成为推动整个领域快速迭代的关键力量。
前半段:带大家拆解 UnifoLM-WMA-0 的定位、亮点与能力; 后半段:结合 GitHub 仓库,整理一份简明的上手指南,帮助你快速复现与使用。
模型核心亮点
世界模型+动作决策的组合拳
UnifoLM-WMA-0 的核心在于一个“世界模型”。它能理解机器人和环境之间的物理规律,并具备两大功能:
仿真引擎:像一个交互式模拟器,能根据机器人动作生成未来环境的变化,从而产生丰富的合成数据。
策略增强:与动作头(Action Head)相连,通过预测未来交互,辅助机器人做出更优的决策。
换句话说,它既能“演练未来”,也能“指导现在”。
双模式架构,既能决策也能模拟
UnifoLM-WMA-0 设计了两种运行模式:
决策模式(Decision-making Mode):预测接下来会发生什么,给策略模块提供额外参考,从而提升动作生成的可靠性。
仿真模式(Simulation Mode):直接模拟环境对动作的反馈,相当于在脑子里先跑一遍实验,再决定真实世界里要不要执行。
这种设计,让模型既能做“参谋”,也能当“模拟器”。
真机验证,效果直观
在宇树的 Z1 机械臂和 G1 人形机器人上,研究团队已经做了部署实验。无论是堆叠方块、收拾铅笔,还是装配相机,右上角的小窗口都会实时显示世界模型对未来动作的预测画面。对比真实执行过程,你会发现它确实能提前“预见”几步后的环境变化。
▲视频 | 官方给出的部署Demo:G1机器人正在装配相机©️【深蓝具身智能】编译
更强的泛化能力
传统机器人模型往往针对单一场景或任务,而 UnifoLM-WMA-0 则强调跨机器人本体、跨任务的通用性。在五个开源数据集上的测试表明,它不仅能做短期的动作预测,还能在长时间序列上保持稳定生成。

技术细节解读
训练流程:三步打造世界模型
第一步:在 Open-X 数据集上微调视频生成模型,使其具备“世界模型”的能力。也就是说,它不仅能生成画面,还能理解背后的物理交互。 第二步:在下游任务数据集上,进入 决策模式 的训练,专注于预测未来交互以辅助动作生成。 第三步:再在下游任务数据集上进行 仿真模式 的训练,让它能生成高保真的环境反馈。
▲视频 | UnifoLM-WMA-0系统架构©️【深蓝具身智能】编译
数据资源:Z1 和 G1 的开源数据集
为了支撑训练,宇树在 HuggingFace 上同步开放了 5 个数据集,涵盖 Z1 机械臂 和 G1 人形机器人:
Z1_StackBox
Z1_DualArm_StackBox / V2
Z1_DualArm_Cleanup_Pencils
G1_Pack_Camera
这些数据集覆盖了单臂、双臂操作,以及真实的装配与整理任务。对于研究者来说,这不仅是模型训练的材料,也是一个能直接上手的实验资源。
▲图1|宇树HuggingFace上满满当当的数据,能够给模型的使用者带来足够的“安全感”©️【深蓝具身智能】编译
能力展示:从可控生成到长时交互
UnifoLM-WMA-0 展现了两个很实用的能力:
(1)动作可控生成:
基于当前画面+未来若干步动作,模型可以生成对应的环境变化视频。与真实录像对比,能明显看出预测的准确度。

▲图2|动作可控生成对比,各位读者可以仔细观察训练前(左)和训练后(右)在机器人的双臂协同动作模式,动作轨迹,动作速率和末端夹爪的移动准确性来对比其效果差异©️【深蓝具身智能】编译
(2)长时交互生成:
不仅仅是预测一两步,而是能连续预测较长时间的交互,支撑长时任务规划。
▲视频|长时交互生成对比,各位读者可以仔细观察训练前(左)和训练后(右)在机器人的双臂协同动作模式,动作轨迹,动作速率和末端夹爪的移动准确性来对比其效果差异©️【深蓝具身智能】编译

GitHub 上手指南
如果说前半段展示了 UnifoLM-WMA-0 的“能力”,那后半段就更偏向“实操”:
研究者和开发者该如何快速用起来?宇树在 GitHub 上已经把代码、模型和数据都整理好,整体上手门槛不算高。
环境安装
官方推荐使用 Conda,新建环境后依次安装依赖:
▲图3|宇树提供的官方环境安装代码,详细内容可以参考本文附带的官方Github链接©️【深蓝具身智能】编译
模型获取
在 HuggingFace 上,宇树已经放出了两个版本:
Base:在 Open-X 数据集上微调过,更适合通用测试;
Dual:在五个宇树自研数据集上联合微调,支持“决策+仿真”双模式。
开发者只需下载对应的 Checkpoint,就可以直接推理或继续训练。
模型获取
如果想在自定义数据集上训练,需要先用官方脚本把数据转成 HuggingFace LeRobot 格式,然后修改配置文件(例如机器人自由度、数据路径和数据集权重),最后运行训练脚本即可。整个过程比较标准化,对已有机器人数据的实验室来说,上手门槛不算高。
推理与交互模式
除了训练,UnifoLM-WMA-0 还支持交互推理。只要准备好提示文件夹(包含图像、文本指令和机器人状态),就可以一键运行推理脚本,生成预测视频,并和真实执行结果做对比。这个“小窗口看未来”的效果,也是它区别于传统方法的亮点之一。
▲图5|动图右上角的小窗即展示了通过世界模型“预测未来”的可视化结果©️【深蓝具身智能】编译
代码架构
仓库的组织结构清晰:核心逻辑集中在 src/unitree_worldmodel/ 下,包括模型实现、数据加载、自定义模块和工具函数。对想做二次开发的研究者来说,阅读和修改都比较方便。
▲图6|官方提供的代码框架一览©️【深蓝具身智能】编译

总结
在具身智能的开源浪潮中,UnifoLM-WMA-0 的出现,不只是一次单纯的模型发布。它代表着宇树科技从硬件制造者,逐渐走向 “硬件+世界模型+动作决策”一体化的生态构建者。
对于研究者来说,开源的模型、数据和完整代码意味着可以快速复现并开展二次开发;对于行业来说,这种“世界模型+动作”范式有望成为通用机器人学习的关键路径。
随着 π0、WALL-OSS 和 UnifoLM-WMA-0 等项目的相继开源,具身智能领域正在进入一个“共享驱动、加速演进”的阶段。未来,谁能在开源生态中率先跑通从仿真到真机的闭环,谁就可能在通用机器人智能的探索中占据先机。
或许,下一个突破,就来自这些被一次次公开分享的模型与数据。
编辑|阿豹
审编|具身君
项目主页:https://unigen-x.github.io/unifolm-world-model-action.github.io/
开源地址:https://github.com/unitreerobotics/unifolm-world-model-action/blob/main/README_cn.md
工作投稿|商务合作|转载
:SL13126828869(微信号)
>>自主机器人技术研讨会早鸟报名【倒计时 1 天】<<

为促进自主机器人领域一线青年学者和工程师的交流,推动学术界与企业界的深度交融与产学研合作,中国自动化学会主办了自主机器人技术研讨会(Autonomous Robotic Technology Seminar,简称ARTS)。
基于前两届大会的成功经验和广泛影响,第三届ARTS将继续深化技术交流与创新,定于2025年10月18日-19日在杭州举办。我们诚挚邀请您参加,并欢迎您对大会组织提供宝贵意见和建议!

【具身宝典】具身智能主流技术方案是什么?搞模仿学习,还是强化学习?|看完还不懂具身智能中的「语义地图」,我吃了!|你真的了解无监督强化学习吗?3 篇标志性文章解读具身智能的“第一性原理”|解析|具身智能:大模型如何让机器人实现“从冰箱里拿一瓶可乐”?|盘点 | 5年VLA进化之路,45篇代表性工作!它凭什么成为具身智能「新范式」?动态避障技术解析!聊一聊具身智能体如何在复杂环境中实现避障
【技术深度】具身智能30年权力转移:谁杀死了PID?大模型正在吃掉传统控制论的午餐……|全面盘点:机器人在未知环境探索的3大技术路线,优缺点对比、应用案例!|照搬=最佳实践?分享真正的 VLA 微调高手,“常用”的3大具身智能VLA模型!机器人开源=复现地狱?这2大核武器级方案解决机器人通用性难题,破解“形态诅咒”!|视觉-语言-导航(VLN)技术梳理:算法框架、学习范式、四大实践|盘点:17个具身智能领域核心【数据集】,涵盖从单一到复合的 7 大常见任务类别||90%机器人项目栽在本地化?【盘点】3种经典部署路径,破解长距自主任务瓶颈!|VLA模型的「核心引擎」:盘点5类核心动作Token,如何驱动机器人精准操作?
【先锋观点】周博宇 | 具身智能:一场需要谦逊与耐心的科学远征|许华哲:具身智能需要从ImageNet做起吗?|独家|ICRA冠军导师、最佳论文获得者眼中“被低估但潜力巨大”的具身智能路径|独家解读 | 从OpenAI姚顺雨观点切入:强化学习终于泛化,具身智能将不只是“感知动作”
【非开源代码复现】非开源代码复现 | 首个能抓取不同轻薄纸类的触觉灵巧手-臂系统PP-Tac(RSS 2025)|独家复现实录|全球首个「窗口级」VLN系统:实现空中无人机最后一公里配送|不碰真机也不仿真?(伪代码)伯克利最新:仅用一部手机,生成大规模高质量机器人训练数据!
我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果。
投稿|商务合作|转载:SL13126828869(微信)

点击❤收藏并推荐本文