宇树最新开源 UnifoLM-WMA-0:世界模型+动作的新范式,从硬件制造者走向生态构建者!

深蓝具身智能 2025-09-17 10:56

>>自主机器人技术研讨会早鸟【倒计时 1 天】<<

资讯配图

资讯配图

开源,正在成为推动整个领域快速迭代的关键力量。

在这股热潮下,宇树科技也放出了自己的重磅动作:UnifoLM-WMA-0——
一个融合“世界模型(World Model)”与“动作决策(Action)”的通用框架。
它不只是单一模型,而是一个贯穿仿真、决策和真机执行的完整体系,目标直指通用机器人学习的核心难题。
更值得注意的是,这一次宇树不仅开源了模型,也同步提供了代码、数据和推理示例,真正做到了“拿来就能跑”。
本文会分成两部分来展开:
如果说之前宇树以硬件闻名,那么这次的开源,代表着它正在逐步构建自己的具身智能大模型生态。
接下来,我们就来看看这套框架的特别之处。
我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇

资讯配图

模型核心亮点

世界模型+动作决策的组合拳

UnifoLM-WMA-0 的核心在于一个“世界模型”。它能理解机器人和环境之间的物理规律,并具备两大功能:

换句话说,它既能“演练未来”,也能“指导现在”。

双模式架构,既能决策也能模拟

UnifoLM-WMA-0 设计了两种运行模式:

这种设计,让模型既能做“参谋”,也能当“模拟器”。

真机验证,效果直观

在宇树的 Z1 机械臂和 G1 人形机器人上,研究团队已经做了部署实验。无论是堆叠方块、收拾铅笔,还是装配相机,右上角的小窗口都会实时显示世界模型对未来动作的预测画面。对比真实执行过程,你会发现它确实能提前“预见”几步后的环境变化。

视频 | 官方给出的部署Demo:G1机器人正在装配相机©️【深蓝具身智能】编译

更强的泛化能力

传统机器人模型往往针对单一场景或任务,而 UnifoLM-WMA-0 则强调跨机器人本体、跨任务的通用性。在五个开源数据集上的测试表明,它不仅能做短期的动作预测,还能在长时间序列上保持稳定生成。

资讯配图

技术细节解读

训练流程:三步打造世界模型

UnifoLM-WMA-0 的训练并不是从零开始,而是通过“三步走”来逐步增强:
这种分阶段训练的方式,让模型既能做短期决策,也能支撑长时序的交互。

视频 | UnifoLM-WMA-0系统架构©️【深蓝具身智能】编译

数据资源:Z1 和 G1 的开源数据集

为了支撑训练,宇树在 HuggingFace 上同步开放了 5 个数据集,涵盖 Z1 机械臂 和 G1 人形机器人

这些数据集覆盖了单臂、双臂操作,以及真实的装配与整理任务。对于研究者来说,这不仅是模型训练的材料,也是一个能直接上手的实验资源。

资讯配图

图1|宇树HuggingFace上满满当当的数据,能够给模型的使用者带来足够的“安全感”©️【深蓝具身智能】编译

能力展示:从可控生成到长时交互

UnifoLM-WMA-0 展现了两个很实用的能力:

(1)动作可控生成:

基于当前画面+未来若干步动作,模型可以生成对应的环境变化视频。与真实录像对比,能明显看出预测的准确度。

资讯配图

图2|动作可控生成对比,各位读者可以仔细观察训练前(左)和训练后(右)在机器人的双臂协同动作模式,动作轨迹,动作速率和末端夹爪的移动准确性来对比其效果差异©️【深蓝具身智能】编译

(2)长时交互生成

不仅仅是预测一两步,而是能连续预测较长时间的交互,支撑长时任务规划。

视频|长时交互生成对比,各位读者可以仔细观察训练前(左)和训练后(右)在机器人的双臂协同动作模式,动作轨迹,动作速率和末端夹爪的移动准确性来对比其效果差异©️【深蓝具身智能】编译

通过这些功能,机器人就不再是“看一步走一步”,而是能够提前推演未来几步,从而做出更稳健的动作
资讯配图

GitHub 上手指南

果说前半段展示了 UnifoLM-WMA-0 的“能力”,那后半段就更偏向“实操”:

研究者和开发者该如何快速用起来?宇树在 GitHub 上已经把代码、模型和数据都整理好,整体上手门槛不算高。

环境安装

官方推荐使用 Conda,新建环境后依次安装依赖:

资讯配图

▲图3宇树提供的官方环境安装代码,详细内容可以参考本文附带的官方Github链接©️【深蓝具身智能】编译

模型获取

在 HuggingFace 上,宇树已经放出了两个版本

开发者只需下载对应的 Checkpoint,就可以直接推理或继续训练。

资讯配图

▲图4|在宇树官方的Hugging Face中,红色方框框选的即为两个开源的模型,base模型的大小都来到了10G,是否有种“诚意拉满,性能也拉满”的感觉©️【深蓝具身智能】编译

模型获取

如果想在自定义数据集上训练,需要先用官方脚本把数据转成 HuggingFace LeRobot 格式,然后修改配置文件(例如机器人自由度、数据路径和数据集权重),最后运行训练脚本即可。整个过程比较标准化,对已有机器人数据的实验室来说,上手门槛不算高

推理与交互模式

除了训练,UnifoLM-WMA-0 还支持交互推理。只要准备好提示文件夹(包含图像、文本指令和机器人状态),就可以一键运行推理脚本,生成预测视频,并和真实执行结果做对比。这个“小窗口看未来”的效果,也是它区别于传统方法的亮点之一

资讯配图

5|动图右上角的小窗即展示了通过世界模型“预测未来”的可视化结果©️【深蓝具身智能】编译

代码架构

仓库的组织结构清晰:核心逻辑集中在 src/unitree_worldmodel/ 下,包括模型实现、数据加载、自定义模块和工具函数。对想做二次开发的研究者来说,阅读和修改都比较方便

资讯配图

6官方提供的代码框架一览©️【深蓝具身智能】编

资讯配图

总结

在具身智能的开源浪潮中,UnifoLM-WMA-0 的出现,不只是一次单纯的模型发布。它代表着宇树科技从硬件制造者,逐渐走向 “硬件+世界模型+动作决策”一体化的生态构建者

对于研究者来说,开源的模型、数据和完整代码意味着可以快速复现并开展二次开发;对于行业来说,这种“世界模型+动作”范式有望成为通用机器人学习的关键路径。

随着 π0、WALL-OSS 和 UnifoLM-WMA-0 等项目的相继开源,具身智能领域正在进入一个“共享驱动、加速演进”的阶段。未来,谁能在开源生态中率先跑通从仿真到真机的闭环,谁就可能在通用机器人智能的探索中占据先机。

或许,下一个突破,就来自这些被一次次公开分享的模型与数据

编辑|阿豹

审编|具身君


UnifoLM-WMA-0: A World-Model-Action (WMA) Framework under UnifoLM Family

项目主页:https://unigen-x.github.io/unifolm-world-model-action.github.io/

开源地址:https://github.com/unitreerobotics/unifolm-world-model-action/blob/main/README_cn.md


工作投稿|商务合作|转载

:SL13126828869(微信号)

>>自主机器人技术研讨会早鸟报名【倒计时 1 天】<<

ABOUT US|关于ARTS

资讯配图

为促进自主机器人领域一线青年学者和工程师的交流,推动学术界与企业界的深度交融与产学研合作,中国自动化学会主办了自主机器人技术研讨会(Autonomous Robotic Technology Seminar,简称ARTS)


基于前两届大会的成功经验和广泛影响,第三届ARTS将继续深化技术交流与创新,定于2025年10月18日-19日在杭州举办。我们诚挚邀请您参加,并欢迎您对大会组织提供宝贵意见和建议!

资讯配图
资讯配图

【具身宝典】具身智能主流技术方案是什么?搞模仿学习,还是强化学习?看完还不懂具身智能中的「语义地图」,我吃了!你真的了解无监督强化学习吗?3 篇标志性文章解读具身智能的“第一性原理”解析|具身智能:大模型如何让机器人实现“从冰箱里拿一瓶可乐”?盘点 | 5年VLA进化之路,45篇代表性工作!它凭什么成为具身智能「新范式」?动态避障技术解析!聊一聊具身智能体如何在复杂环境中实现避障


【技术深度】具身智能30年权力转移:谁杀死了PID?大模型正在吃掉传统控制论的午餐……全面盘点:机器人在未知环境探索的3大技术路线,优缺点对比、应用案例!照搬=最佳实践?分享真正的 VLA 微调高手,“常用”的3大具身智能VLA模型!机器人开源=复现地狱?这2大核武器级方案解决机器人通用性难题,破解“形态诅咒”!视觉-语言-导航(VLN)技术梳理:算法框架、学习范式、四大实践盘点:17个具身智能领域核心【数据集】,涵盖从单一到复合的 7 大常见任务类别90%机器人项目栽在本地化?【盘点】3种经典部署路径,破解长距自主任务瓶颈!VLA模型的「核心引擎」:盘点5类核心动作Token,如何驱动机器人精准操作?


【先锋观点】周博宇 | 具身智能:一场需要谦逊与耐心的科学远征许华哲:具身智能需要从ImageNet做起吗?独家|ICRA冠军导师、最佳论文获得者眼中“被低估但潜力巨大”的具身智能路径独家解读 | 从OpenAI姚顺雨观点切入:强化学习终于泛化,具身智能将不只是“感知动作”


【非开源代码复现】非开源代码复现 | 首个能抓取不同轻薄纸类的触觉灵巧手-臂系统PP-Tac(RSS 2025)独家复现实录|全球首个「窗口级」VLN系统:实现空中无人机最后一公里配送不碰真机也不仿真?(伪代码)伯克利最新:仅用一部手机,生成大规模高质量机器人训练数据!

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?‍


欢迎关注【深蓝具身智能】👇

资讯配图

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果。

投稿|商务合作|转载:SL13126828869(微信)


资讯配图

点击收藏并推荐本文

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
通义DeepResearch震撼发布!性能比肩OpenAI,模型、框架、方案完全开源
TrajBooster:首个全身人行操作VLA方案,跨构型解决数据难题(代码全开源)
刚刚,宇树宣布开源
π0.5宣布开源!这下机器人泛化难题有解了?
阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定
从中国“霸榜”到全球开源,AI的新思考!GOSIM HANGZHOU 2025圆满收官
腾讯最新开源太牛了,AI一键去油、告别塑料感!登顶Hugging Face模型榜
腾讯混元开源AI绘画新框架:24维度对齐人类意图,让AI读懂复杂指令
一周AI丨我国拟立84项AI国标;OpenAI推出AI制作动画电影;英伟达发布超长上下文推理芯片;阿里开源下一代基础模型架构……
反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号