点击下方卡片,关注“具身智能之心”公众号
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。
UnifoLM-WMA-0是宇树科技推出的开源世界模型-行动架构,该架构跨越多种机器人实体形态,专为通用机器人学习而设计。其核心组件是具备理解机器人与环境间物理交互能力的世界模型,该模型提供两大关键功能:(a)仿真引擎——作为交互式模拟器运行,为机器人学习生成合成数据;(b)策略增强——与行动模块连接,通过预测与世界模型的未来交互过程,进一步优化决策性能。
项目链接:https://unigen-x.github.io/unifolm-world-model-action.github.io/



架构说明
UnifoLM-WMA-0是一种嵌入世界模型的策略架构。该框架使世界模型能够以两种模式运行:(1)决策模式-预测未来物理交互信息以辅助策略生成动作;(2)模拟模式-根据机器人动作生成高保真度的环境反馈。


对视频生成模型进行微调:首先,我们在Open-X数据集上对视频生成模型进行微调,使其生成能力适配机器人操作场景。该模型以图像和文本指令作为输入,并以视频形式生成未来交互过程。
UnifoLM-WMA-0动作可控生成:基于宇树机器人的五个开源数据集对模型进行训练。测试结果表明,作为仿真引擎,该模型能够根据当前图像和若干未来机器人动作实现交互式可控生成。

数据集和模型
官网上也提供了完整的数据集和模型。

训练方式

推理说明

更多内容
更多内容欢迎加入我们的具身技术社区:具身智能之心知识星球。和近2000人,近200家具身公司与机构成员一起交流。
