RSS 2025最佳Demo奖！UC伯克利联合谷歌开源机器人强化学习框架MuJoCo Playground

智猩猩Robot整理

编辑：严浠

近日，UC伯克利联合Google DeepMind、多伦多大学、剑桥大学提出的基于MuJoCo XLA（MJX）构建的机器人强化学习框架MuJoCo Playground荣获了RSS 2025 最佳 Demo奖，现已完全开源。

MuJoCo Playground仅通过“pip install playground”指令，就能在单块GPU上高效训练，耗时仅需几分钟。该框架旨在简化机器人仿真、训练，支持多种机器人本体，包括四足机器人、人形机器人、灵巧手及机械臂，能够实现在不同输入模式（包括状态输入和像素输入）下的零样本sim-to-real迁移。

论文标题：《MuJoCo Playground》
论文链接：https://arxiv.org/abs/2502.08844
项目主页：https://playground.mujoco.org/

方法

1.1 环境

MuJoCo Playground包含三大类环境：DeepMind (DM) Control Suite（控制套件）、Locomotion（运动）和 Manipulation（操作）。

DM Control Suite（控制套件）

复现了DM Control Suite主流的强化学习环境，作为入门级任务，可以帮助用户快速熟悉MuJoCo Playground。

Locomotion (运动)

支持多种四足机器人和双足机器人。四足机器人包括Unitree Go1、波士顿动力Spot、谷歌Barkour；人形机器人包括伯克利人形机器人、Unitree H1/G1、Booster T1、Robotis OP3。每个机器人提供了手柄指令追踪功能，通过强化学习训练机器人跟踪前进/横向速度及转向指令，还为Unitree Go1开发了跌倒自恢复和倒立行走的专项训练。目前，Unitree Go1、伯克利人形机器人、Unitree G1、Booster T1均已实现sim-to-real迁移。

Manipulation（操作）

涵盖了抓取与非抓取任务，如下图展示了Leap Hand灵巧手方块重定向，在Franka机械臂上实现了抓取方块，Aloha机器人的双臂插孔等。目前，在Leap Hand灵巧手和Franka机械臂上均实现了sim-to-real迁移。

具体来说，采用MANO手部参数作为人类与机器人操作的共享动作空间 。在训练阶段通过优化MANO参数，使其生成的指尖位置与机器人灵巧手的实际指尖位置保持一致。在部署阶段由一个小型MLP将预测的指尖位置映射到机器人灵巧手的具体关节指令。

1.2 Madrona批量渲染器

MuJoCo Playground通过深度整合MJX与Madrona渲染引擎，实现了端到端的视觉输入环境训练。Madrona是一个基于GPU的ECS实体-组件-系统架构，包含了高吞吐量渲染的GPU实现。

实验

实验展示了MuJoCo Playground中各类环境的强化学习训练结果与sim-to-real迁移效果。sim-to-real实验涵盖了locomotion与manipulation环境。

2.1 Locomotion（运动）

1）四足机器人

训练过程：研究人员针对传感器噪声、动力学属性和任务不确定性进行了域随机化。首先在平坦地面上、限定指令范围内训练（耗时约5分钟，使用2块RTX 4090 GPU）；随后在更复杂地形和更宽指令范围内进行微调。

研究人员在Unitree Go1四足机器人上进行了策略部署，设置了遥操控制、前腿倒立、后腿倒立、跌倒恢复这四项任务。实验结果表明，上述四项任务均成功实现了sim-to-real的迁移。这些策略能够应对崎岖地形，并能抵御一定的外部扰动，且无需额外微调。

2）人形机器人

训练过程：研究人员采用了与四足机器人相似的域随机化和微调策略，实验选用了三种不同的人形机器人（伯克利人形机器人、Unitree G1和Booster T1）进行了sim-to-real实验。在平坦地面上进行训练，使用2块RTX 4090 GPU，伯克利人形机器人耗时15分钟内，Unitree G1和Booster T1耗时少于30分钟。

实验结果表明，在伯克利人形机器人上成果部署了遥操作运动控制策略，能够在坚硬地板、柔软光滑的地面等多种地面实现不同速度行走。在Unitree G1和Booster T1上部署零样本策略，同样能在标准室内地板上稳定的行走和转向。

2.2 Manipulation（操作）

研究人员对一系列操作任务进行了sim-to-real迁移，包括了灵巧手的掌中操作（dexterous in-hand manipulation）、非抓握式操作以及基于视觉的抓取。

1）方块重定向任务

研究人员使用了LEAP Hand，要求灵巧手连续翻转7cm方块，新目标姿态与前次至少相差90°，误差小于 0.1rad。

实验结果如下表所示，在10次实验中连续成功5次，最大误差小于10°。而失败时主要是因为灵巧手手指形变，方块卡在指缝。

2）瑜伽砖重定向任务

研究人员在Franka Emika Panda机械臂，配备Robotiq夹爪进行实验，要求瑜伽砖移动到目标位置并朝向正确，位置误差小于3 厘米，方向误差小于10°。

实验结果如下表所示，成功率达到了100%，无需额外微调即可在真实机器人上完成重定向瑜伽砖的任务。

总结

本论文中，研究人员提出了一个基于开源MuJoCo模拟器与Madrona批量渲染器构建的环境库MuJoCo Playground，用于实现多种机器人强化学习任务。研究人员展示了如何在不同的GPU拓扑结构上，结合JAX与PyTorch等强化学习库进行大规模策略训练，并在从状态输入到像素输入的多种机器人运动与灵巧操作任务上，演示了sim-to-real 的实际部署效果。

END

首次将触觉作为原生模态引入VLA！清华叉院高阳团队联合提出Tactile-VLA，任务成功率近100%

清华孙富春教授：世界模型驱动的具身智能 | 报告回顾

实现灵巧手抓取80%成功率！银河通用王鹤团队提出视觉语言抓取模型DexVLG | ICCV 2025

点击下方名片即刻关注我们