
欢迎关注具身智能大讲堂

近日,宇树宣布开源首个世界模型行动 (WMA) 框架——UnifoLM-WMA-0。该框架最核心的价值在于构建了一个能够深度理解 “机器人与环境交互” 物理规律的世界模型,为通用机器人学习提供了强大的支持。
1► UnifoLM-WMA-0世界模型破解复杂环境应对难题
UnifoLM-WMA-0 的核心是一个能够深度理解 “机器人与环境交互” 物理规律的世界模型,这一模型犹如机器人的 “智慧大脑”,赋予了机器人感知、理解和预测环境变化的能力。它打破了传统机器人依赖简单编程和预设规则执行任务的局限,使机器人能够在复杂多变的现实环境中灵活应对。该世界模型具备两大核心功能,即仿真引擎和策略增强。

UnifoLM-WMA-0 的仿真引擎以交互式仿真器形式运行,核心作用是为机器人学习生成合成数据 —— 解决真实场景数据采集成本高、场景覆盖有限的难题。该引擎可输出包含不同环境布局、物体特性及机器人动作组合的合成数据。机器人通过这些虚拟数据大量训练,可快速掌握动作模式与应对策略,缩短学习周期并降低实际操作风险与成本。

策略增强功能可与一个动作头进行对接,通过预测未来与物理世界的交互过程,进一步优化决策性能。这一功能如同为机器人安装了一个 “未来洞察器”,让机器人在执行任务前能够对不同动作选择可能带来的后续结果进行预测。

当机器人面临一个复杂任务时,比如在杂乱的仓库中寻找并搬运特定货物,策略增强功能会基于对当前环境的感知(如货物的位置、周围障碍物的分布等)以及过往学习经验,分析出不同的行动路径和抓取方式可能产生的后果,例如是否会碰撞到其他物品、能否顺利抓取货物等,然后从中筛选出最优的决策路径。
这种优化决策的能力使得机器人在真实环境中执行任务时,不再是盲目试错,而是能够更加智能、高效地完成任务。它让机器人具备了 “未雨绸缪” 的能力,大大提高了机器人在复杂环境下的适应性和执行任务的成功率。同时,随着机器人不断积累新的经验和数据,策略增强功能还能不断优化自身的预测和决策能力,实现机器人性能的持续提升。
2► UnifoLM-WMA-0 双模式架构解锁机器人精准操作
UnifoLM-WMA-0 采用世界模型 - 嵌入式策略架构,其世界模型支持决策、仿真两种协同运行模式,为机器人学习与任务执行提供支撑。
在决策模式下,世界模型通过预测机器人与环境的物理交互信息,辅助策略模块生成动作。
这些预测信息传递至策略模块后,模块会据此生成关节运动的具体指令。
仿真模式下,UnifoLM-WMA-0 的世界模型会依据机器人动作生成高保真环境反馈:当机器人在现实中执行动作后,世界模型会模拟该动作在真实环境中的实际效果(如物体移动、碰撞反应等),并输出对应的反馈信息。
3► UnifoLM-WMA-0 的泛化能力表现如何?
为提升 UnifoLM-WMA-0 对不同任务与环境的适应性,宇树首先在 Open-X 数据集上微调视频生成模型,以使其生成能力适配机器人作业场景 —— 该模型接收图像与文本指令输入,可输出对应文本指令的未来动作视频。
微调时,通过让模型学习大量机器人实际作业场景的图像与动作数据,使其理解不同场景下的任务执行逻辑。微调后,模型在测试集的生成效果显著提升,可更准确预测机器人各类任务的动作序列,为实际操作提供可靠参考。

宇树科技在五个开源数据集上训练 UnifoLM-WMA-0,这些数据集覆盖机器人家庭日常操作、工业生产线作业、物流仓库搬运等多样任务与场景。
通过跨领域数据集训练,模型能学习不同场景下机器人与环境交互的特点和规律,进而提升泛化能力 —— 不仅在训练过的场景中表现良好,还能快速适应未见过的新场景。这种多数据集训练让 UnifoLM-WMA-0 面对复杂现实世界时,具备更强的适应性与鲁棒性。
4► UnifoLM-WMA-0 具备精准任务控制能力
UnifoLM-WMA-0 在多类场景中具备高效任务执行能力,执行积木搭建任务(如按特定颜色顺序堆叠木块)时,机器人依托世界模型的预测功能,精准控制抓取力度与角度。

通过微调角度让红色木块底面对齐桌面特定区域,黄色、绿色木块依次对齐下方木块顶面,避免堆叠倾斜。这一过程中,世界模型在决策模式下预判不同抓取、放置动作对积木稳定性的影响,策略模块据此生成精准动作指令,保障任务完成。

在收纳文具、放置黑色小相机等精细操作中,机器人表现同样突出:整理桌面散落的橡皮与笔时,会先分辨物品形态,再依据世界模型对盒子分区的理解,将橡皮放入右侧小收纳空间、笔放入上方大空间,最后合上盒子;放置黑色小相机时,会先确定摆放方向,将相机嵌入包装盒凹槽,再按特定方向盖好顶盖。这些操作所体现的复杂环境下物体感知与动作精细控制能力,均依赖 UnifoLM-WMA-0 的世界模型与策略架构实现。
UnifoLM-WMA-0 还具备长程任务的持续交互生成能力,在需多步骤、长时间完成的任务中,机器人可依托世界模型的预测与策略增强功能,动态调整动作与决策。
5► 结语与未来:
UnifoLM-WMA-0开源通过开放训练代码,使得研究人员能基于该模型进一步优化、探索新应用场景,开发者也能直接把它集成到自己的机器人项目里,减少重复开发、降低成本,让整个领域的创新节奏更快。
同时,这个开源模型给行业提供了一套成熟的通用机器人学习架构参考,企业和研究机构能借鉴该设计思路、训练方法,提升自己的技术研发能力,缩小不同主体间的技术差距,推动产业技术进一步迭代升级。
END
往
期
精
选
科技热点
大咖观点
热点评论
新品速递

微信号|具身智能大讲堂
专注AI具身智能产业前沿话题
加入社群
欢迎加入【具身智能大讲堂】读者讨论群,共同探讨具身智能机器人相关领域话题,共享前沿科技及产业动态。
添加微信号(19016903753)具身智能大讲堂客服 备注“具身茶谈”可进入交流群。
兼职作者&投稿
机器人大讲堂正在招募【兼职内容创作者】,如果您对撰写机器人【科技类】或【产业类】文章感兴趣,可添加微信:具身智能大讲堂客服(19016903753,手机与微信号相同)。我们对职业、所在地等没有要求,欢迎朋友们的加入!