宇树:开源机器人世界大模型!

量子位 2025-09-16 12:05
西风 发自 凹非寺
量子位 | 公众号 QbitAI

一觉醒来,宇树带着最新开源模型来了!

这次开源的是一个世界模型-动作架构,名叫UnifoLM-WMA-0。它的核心之处在于拥有一个世界模型能够理解机器人和环境相互作用时的物理规律

咱先瞧瞧真机部署后的表现。

玩堆积木,稳稳当当。重点是,右上角小窗口呈现出世界模型对后续动作视频的预测,能发现和实际操作情形十分吻合

资讯配图

两只机械臂搭档干活也可以:

资讯配图

像收纳文具这类稍精细的活儿,都能轻松拿捏:

资讯配图

将相机放入包装盒,世界模型的预测同样和实际操作几乎无差:

官方称,UnifoLM-WMA-0属于UnifoLM(Unitree机器人统一大模型)系列成果,是团队专为通用机器人学习量身打造的,能适配多种机器人本体

资讯配图

目前UnifoLM-WMA-0训练代码、推理代码、模型Checkpoints通通开源,GitHub迅速揽获100+Star。

资讯配图

网友看后纷纷点赞。

资讯配图

如何训练的?

官方介绍了模型的训练策略,具体流程和设计思路可以拆解成这几步来看。

首先,团队先拿Open-X数据集对视频生成模型做了针对性微调,核心目的就是让模型原本的生成能力适配机器人的实际作业场景。

至于微调后模型在测试集上的实际生成效果,是这样婶儿的:

资讯配图

团队进一步提出了基于世界模型打造的策略架构,即UnifoLM-WMA-0。

这个架构里的世界模型不是单一模式运行,而是支持两种核心功能模式。

一种是决策模式,简单说就是能提前预测机器人和环境进行物理交互时的关键信息,辅助策略更精准地生成下一步动作。

另一种是仿真模式,主要是根据机器人已经做出的动作,生成高度还原真实场景的环境反馈,相当于给机器人模拟出一个逼真的交互环境。

针对这两种模式,团队在下游任务数据集上分别做了后训练优化。

资讯配图
资讯配图

以下是完整的系统架构及工作流程:

团队用了宇树科技公开的五个开源数据集,最终完成了全流程训练。

资讯配图

从测试结果来看,这个模型要是当作仿真引擎来用,效果突出。

只要给它“当前场景的图像”,再加上一定数量的“机器人未来要做的动作指令”,它就能实现可控的交互生成,生成的内容能精准匹配预期。

生成结果和原视频的对比情况,大家可以通过下面的图直观感受:

资讯配图
资讯配图

面对长程任务的持续交互生成也能应对,生成结果和原视频的对比如下:

资讯配图

GitHub:https://github.com/unitreerobotics/unifolm-world-model-action/tree/main
项目主页:https://unigen-x.github.io/unifolm-world-model-action.github.io/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


📺 明晚20点得到APP联创和Get笔记负责人快刀青衣将做客AI 100访谈间,从Get笔记的经验与思考出发,聊聊知识领域的AI新时代。欢迎扫码预约直播!Have Fun~

资讯配图

一键关注 👇 点亮星标

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源 机器人
more
【会员风采】我会会员单位科钛机器人:极简版CP15——极简工业智能,赋能柔性制造
【机器人】美的全球首个多场景覆盖智能体工厂公开!人形机器人打通最后一公里
从科幻走进现实!“浙”里的机器人能“上天入地”
AI+机器人唱主角,365项产品拟被认定成都市首台(套)重大技术装备
联盟×戴尔 | 杭州具身智能机器人沙龙成功举办
快讯|Figure融资10亿估值达390亿美元;Rethink Robotics再次倒闭;西湖大学研发昆虫尺度软体机器人等
造扫地机器人的追觅也要造车,对标的居然是布加迪!!!
【他山之石】字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
具身智能「登月计划」已启动 | 智元机器人Genie Trailblazer 计划全球招募
抢鲜!第十一届中国机器人高峰论坛暨第八届CEO圆桌峰会议程曝光,预约你的参会指南
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号