RSS 2025最佳Demo奖!UC伯克利联合谷歌开源机器人强化学习框架MuJoCo Playground

智猩猩 2025-07-30 13:15
智猩猩Robot整理

编辑:严浠


近日,UC伯克利联合Google DeepMind、多伦多大学、剑桥大学提出的基于MuJoCo XLA(MJX)构建的机器人强化学习框架MuJoCo Playground荣获了RSS 2025 最佳 Demo奖现已完全开源


MuJoCo Playground仅通过“pip install playground”指令,就能在单块GPU上高效训练,耗时仅需几分钟。该框架旨在简化机器人仿真、训练,支持多种机器人本体,包括四足机器人、人形机器人、灵巧手及机械臂,能够实现在不同输入模式(包括状态输入和像素输入)下的零样本sim-to-real迁移。


资讯配图


  • 论文标题:《MuJoCo Playground》

  • 论文链接:https://arxiv.org/abs/2502.08844

  • 项目主页:https://playground.mujoco.org/


1

方法


1.1 环境


MuJoCo Playground包含三大类环境:DeepMind (DM) Control Suite(控制套件)、Locomotion(运动) 和 Manipulation(操作)


DM Control Suite(控制套件)


复现了DM Control Suite主流的强化学习环境,作为入门级任务,可以帮助用户快速熟悉MuJoCo Playground。

资讯配图


Locomotion (运动)


支持多种四足机器人和双足机器人。四足机器人包括Unitree Go1、波士顿动力Spot、谷歌Barkour;人形机器人包括伯克利人形机器人、Unitree H1/G1、Booster T1、Robotis OP3。每个机器人提供了手柄指令追踪功能,通过强化学习训练机器人跟踪前进/横向速度及转向指令,还为Unitree Go1开发了跌倒自恢复和倒立行走的专项训练。目前,Unitree Go1、伯克利人形机器人、Unitree G1、Booster T1均已实现sim-to-real迁移


资讯配图


Manipulation(操作)


涵盖了抓取与非抓取任务,如下图展示了Leap Hand灵巧手方块重定向,在Franka机械臂上实现了抓取方块,Aloha机器人的双臂插孔等。目前,在Leap Hand灵巧手和Franka机械臂上均实现了sim-to-real迁移。


资讯配图


具体来说,采用MANO手部参数作为人类与机器人操作的共享动作空间 。在训练阶段通过优化MANO参数,使其生成的指尖位置与机器人灵巧手的实际指尖位置保持一致。在部署阶段由一个小型MLP将预测的指尖位置映射到机器人灵巧手的具体关节指令。


1.2 Madrona批量渲染器


MuJoCo Playground通过深度整合MJX与Madrona渲染引擎,实现了端到端的视觉输入环境训练。Madrona是一个基于GPU的ECS实体-组件-系统架构,包含了高吞吐量渲染的GPU实现。


2

实验


实验展示了MuJoCo Playground中各类环境的强化学习训练结果与sim-to-real迁移效果。sim-to-real实验涵盖了locomotion与manipulation环境。


2.1 Locomotion(运动)


1)四足机器人


训练过程研究人员针对传感器噪声、动力学属性和任务不确定性进行了域随机化。首先在平坦地面上、限定指令范围内训练(耗时约5分钟,使用2块RTX 4090 GPU);随后在更复杂地形和更宽指令范围内进行微调。


研究人员在Unitree Go1四足机器人上进行了策略部署,设置了遥操控制、前腿倒立、后腿倒立、跌倒恢复这四项任务。实验结果表明,上述四项任务均成功实现了sim-to-real的迁移。这些策略能够应对崎岖地形,并能抵御一定的外部扰动,且无需额外微调。

资讯配图

2)人形机器人


训练过程 研究人员采用了与四足机器人相似的域随机化和微调策略,实验选用了三种不同的人形机器人(伯克利人形机器人、Unitree G1和Booster T1)进行了sim-to-real实验。在平坦地面上进行训练,使用2块RTX 4090 GPU,伯克利人形机器人耗时15分钟内,Unitree G1和Booster T1耗时少于30分钟。


实验结果表明,在伯克利人形机器人上成果部署了遥操作运动控制策略,能够在坚硬地板、柔软光滑的地面等多种地面实现不同速度行走。在Unitree G1和Booster T1上部署零样本策略,同样能在标准室内地板上稳定的行走和转向。


资讯配图


2.2 Manipulation(操作)


研究人员对一系列操作任务进行了sim-to-real迁移,包括了灵巧手的掌中操作(dexterous in-hand manipulation)、非抓握式操作以及基于视觉的抓取。


1)方块重定向任务


研究人员使用了LEAP Hand,要求灵巧手连续翻转7cm方块,新目标姿态与前次至少相差90°,误差小于 0.1rad。


资讯配图


实验结果如下表所示,在10次实验中连续成功5次,最大误差小于10°。而失败时主要是因为灵巧手手指形变,方块卡在指缝。


资讯配图

2)瑜伽砖重定向任务


研究人员在Franka Emika Panda机械臂,配备Robotiq夹爪进行实验,要求瑜伽砖移动到目标位置并朝向正确, 位置误差小于3 厘米,方向误差小于10°。


资讯配图


实验结果如下表所示,成功率达到了100%,无需额外微调即可在真实机器人上完成重定向瑜伽砖的任务。


资讯配图


3

总结


本论文中,研究人员提出了一个基于开源MuJoCo模拟器与Madrona批量渲染器构建的环境库MuJoCo Playground,用于实现多种机器人强化学习任务。研究人员展示了如何在不同的GPU拓扑结构上,结合JAX与PyTorch等强化学习库进行大规模策略训练,并在从状态输入到像素输入的多种机器人运动与灵巧操作任务上,演示了sim-to-real 的实际部署效果。


END


      推荐阅读      


从第一视角人类视频中学习操作技能!UCSD联合NVIDIA提出VLA模型EgoVLA,无需使用大量真机数据训练

首次将触觉作为原生模态引入VLA!清华叉院高阳团队联合提出Tactile-VLA,任务成功率近100%

清华孙富春教授:世界模型驱动的具身智能 | 报告回顾

实现灵巧手抓取80%成功率!银河通用王鹤团队提出视觉语言抓取模型DexVLG | ICCV 2025

通用双臂机器人操作最新SOTA!清华开源分层高斯世界模型ManiGaussian++ | IROS 2025


点击下方名片 即刻关注我们


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源 机器人
more
腾讯、京东的机器人战略:不造机器人
签下360万美元大单,这家四川机器人企业全年产值有望翻番
押宝“具身智能”,扫地机器人巨头豪掷2亿元投向机器人项目
长三角(昆山)具身智能大赛聚焦机器人、智能网联汽车、低空飞行器三大赛道火热开赛!
关于举办“2025全国电力机器人高峰论坛”的通知
Q1机器人业务收入增长45.83%,这家零部件上市公司做对了什么?
让机器人拥有智能触觉,「悟通感控」获数千万元融资 | 早起看早期
机器人核心零部件供应商同川科技完成 A + 轮融资
灵猴具身智能机器人订单突破亿元大关,实现规模化交付!
Science子刊:成功率100%?头戴式手术机器人实现眼科手术"动态零误差"
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号