人形机器人20分钟学会荡秋千！斯坦福大学开源软硬件协同系统RTR

RTR团队投稿

智猩猩Robot整理

作者介绍：本文的共同第一作者为清华大学交叉信息研究院许华哲组博士生胡开哲，与斯坦福大学C. Karen Liu和Shuran Song组博士生史浩辰。文章在胡开哲于斯坦福大学访问期间完成。共同通讯作者为斯坦福大学计算机系教授C. Karen Liu，与斯坦福大学电子工程系助理教授Shuran Song。

人形机器人的运动控制，正成为强化学习（RL）算法应用的下一个热点研究领域。当前，主流方案大多遵循“仿真到现实”（Sim-to-Real）的范式。研究者们通过域随机化（Domain Randomization）技术，在成千上万个具有不同物理参数的仿真环境中训练通用控制模型，期望它能凭借强大的泛化能力，直接适应动力学特性未知的真实世界。尽管这类“零样本迁移”（Zero-Shot Transfer）方案在多种运动任务上取得了卓越表现，但其本质目标是训练一种在任何环境下都“能用”的保守策略。这种策略牺牲了机器人在特定真实环境中的性能上限，因为对于最终落地而言，真实世界的表现才是唯一重要的标准。

为了突破这一瓶颈，近期一些工作开始探索在仿真预训练后，利用少量真实数据对模型进行微调。例如，来自英伟达和CMU等机构的研究者提出的ASAP ，通过训练一个残差网络来快速补偿仿真与现实的动态差异；而学界经典的RMA (Rapid Motor Adaptation) 算法也被应用于双足机器人，通过一个适配模块从历史动作中推断环境动力学信息。然而，这些工作大多仍着眼于对动态偏差进行一次性补偿，交互范式也更偏向于离线学习，并未在真实环境中对模型本身进行持续的在线调整。由于人形机器人本身极不稳定，任何微小的失误都可能导致昂贵的硬件损坏，因此在真实环境中直接进行强化学习训练，长期以来被视为一个难以逾越的障碍。

从人类父母教授婴儿学步的过程中汲取灵感，斯坦福大学团队创造性地提出软硬件协同系统RTR (Robot-Trains-Robot)。该系统使用一个“教师”机械臂在现实世界中“手把手”地指导“学生”人形机器人进行在线强化学习。与RTR相关的论文成果收录于CoRL 2025顶会上，项目代码已全部开源。

RTR 系统凸显了由机器人教师提供主动物理辅助，对于实现人形机器人真机强化学习的重要意义。同时，为解决真实世界数据采集成本高昂的难题，团队还提出了一种新颖的强化学习算法，通过仅优化一个与环境动力学相关的低维隐变量来快速调整机器人的行为，极大地提升了样本效率。这一算法上的贡献进一步解放了真机强化学习的潜力，在评测中显著超越了 RMA 等传统的在线系统识别基准。

论文标题：Robot Trains Robot: Automatic Real-World Policy Adaptation and Learning for Humanoids
论文链接：https://arxiv.org/abs/2508.12252
项目地址：
https://robot-trains-robot.github.io/
开源代码：https://github.com/hukz18/Robot-Trains-Robot
收录情况：CoRL 2025

方法

RTR 系统由硬件和算法两部分构成。

1.1硬件设置：教师与学生的协同生态系统

RTR 的硬件系统由“教师”和“学生”两组机器人组成。

教师系统：核心是一台带有力-矩（Force / Torque）传感器的 UR5 六轴机械臂。四根弹性缆绳将机械臂的末端与人形机器人的肩部相连，这种柔性连接可以平滑地传递辅助力，避免刚性连接带来的冲击。在行走任务中，一台可编程的跑步机作为辅助，确保学生始终在教师的臂展范围内。一台迷你 PC 作为教师系统的“大脑”，统一处理力反馈信号并控制机械臂与跑步机的行为。

在使用一个“教师”机械臂在现实世界中“手把手”地指导“学生”人形机器人进行在线强化学习的过程中，教师机械臂扮演了多重关键角色。它既是保护安全的“吊索”，防止学生摔倒；也是自动重置的“帮手”，可以在失败后迅速扶起学生继续训练；它还是敏锐的“信号源”，通过力传感器收集宝贵的训练数据，为学生提供在真实环境中不易获得的奖励信号；更是智慧的“教练”，通过设置课程学习（Curriculum Learning）进度和施加对抗性扰动，在训练初期帮助学生快速适应环境，再循序渐进地提升训练难度，增强学生的学习效率和策略的鲁棒性。

学生系统：学生基于开源的 ToddlerBot 人形机器人，它拥有 30 个自由度，体型紧凑且硬件坚固，适合长时间的连续训练。开源的机器人设计使得根据需要对其进行修改更加便捷，一台独立的工作站则负责运行强化学习算法，并在学生手机数据的同时持续将最新的策略模型发送给学生执行。

1.2 算法设计：三阶段式高效Sim-to-Real微调

为了最大化数据效率，RTR 提出Sim-to-Real 过程分为三个的阶段：

1. 仿真训练具有环境适应性的策略。在大量域随机化的仿真环境中，训练一个接受编码了环境物理参数（如摩擦力、阻尼等）的隐变量 z 作为输入的控制策略。该隐变量通过 FiLM (Feature-wise Linear Modulation) ^[5]层融入策略网络，使得机器人的策略能够根据不同的动力学环境进行自适应调整。

2. 优化通用初始隐变量。由于真实世界的物理参数未知，直接部署第一阶段的模型会面临“真实环境中隐变量 z 该如何设置”的难题。为此，研究人员参考域随机化方法的思路，首先在仿真中优化一个“通用”的隐变量资讯配图，使其在所有见过的仿真环境中都能取得不错的平均表现。这个能够引导策略产生能够适应各种环境的动作输出，成为了真实世界微调的可靠起点。

3. 真实世界在线微调。将仿真训练的策略加上通用隐变量资讯配图作为环境状态输入，部署到真实机器人上。在教师机械臂的辅助下，冻结策略网络参数，仅在线优化低维的隐变量。这种隐变量的优化方式，用极少的数据量就能快速使机器人的步态适应真实世界的动力学特性，实现了极高的微调效率和稳定的微调过程。相比之下，直接使用PPO等强化学习算法在真实世界微调策略网络本身，极易让策略不再稳定而产生危险的动作。

实验

研究人员通过行走和“荡秋千”两个任务，全面验证了 RTR 系统的有效性。

仿真到现实微调的行走任务中，让机器人在跑步机上精准地追踪目标速度。消融实验证明了 RTR 系统设计的优越性：

教师的辅助效果：与固定的吊架相比，能够主动顺应机器人运动的“柔性”机械臂（XY Compliant）显著提升了学习效果。同时，从高额辅助逐渐过渡到零辅助的“课程学习”策略（Z Schedule），优于全程高辅助或全程低辅助的固定策略。

微调算法的数据效率：RTR 提出的“微调隐变量”方法，在数据效率和最终性能上均优于微调整个策略网络或微调残差网络的基线方法。仅需 20 分钟的真实世界训练，RTR 就能将在仿真中预训练的行走策略速度提升一倍。

研究人员还进一步设计了对比实验，验证了使用FiLM层向策略网络添加关于环境动态的隐变量条件输入，其效果优于直接将环境动态变量拼接到策略网络的观测中。基于RTR提出方法的真机微调效果，也要强于RMA为代表的在线参数识别基线。

除了 Sim-to-Real 任务，还设计了纯真实环境强化学习的“荡秋千”实验，以展示 RTR系统在直接强化学习任务中的潜力。在这个任务中，人形机器人需要学会协调双腿，像孩子一样荡起秋千，以最大化摆动幅度。教师机械臂通过实时力反馈感知学生的摆动相位，在适当时机给予“推动”（帮助）或“阻尼”（扰动）。实验结果表明，有教师主动参与的“帮助”和“扰动”课程学习，其效率高于教师仅作为固定吊架的方案，同时教师感知到的力信息，始终作为重要的奖励信号指导学生训练。整个学习过程从零开始，在20分钟内就学会了幅度明显的周期性摆荡动作。

总结与展望

RTR 框架的提出，不仅为解决当前人形机器人真机部署与训练的瓶颈提供了切实可行的方案，更重要的是，它引入了主动力辅助这一全新的范式来帮助机器人的真实世界学习。这一极具扩展性的框架在未来可以通过使用承载能力更强的工业机械臂或带有力传感的龙门吊系统，将 RTR 的成功经验推广到全尺寸人形机器人，乃至其他各类复杂机器人系统的真实世界强化学习任务中。

END

智猩猩矩阵号各专所长，点击名片关注