人形机器人20分钟学会荡秋千!斯坦福大学开源软硬件协同系统RTR | CoRL 2025

智猩猩 2025-09-16 21:21
RTR团队投稿

智猩猩Robot整理


作者介绍:本文的共同第一作者为清华大学交叉信息研究院许华哲组博士生胡开哲,与斯坦福大学C. Karen LiuShuran Song组博士生史浩辰。文章在胡开哲于斯坦福大学访问期间完成。共同通讯作者为斯坦福大学计算机系教授C. Karen Liu,与斯坦福大学电子工程系助理教授Shuran Song


人形机器人的运动控制,正成为强化学习(RL)算法应用的下一个热点研究领域。当前,主流方案大多遵循仿真到现实Sim-to-Real)的范式。研究者们通过域随机化(Domain Randomization)技术,在成千上万个具有不同物理参数的仿真环境中训练通用控制模型,期望它能凭借强大的泛化能力,直接适应动力学特性未知的真实世界。尽管这类零样本迁移Zero-Shot Transfer)方案在多种运动任务上取得了卓越表现,但其本质目标是训练一种在任何环境下都的保守策略。这种策略牺牲了机器人在特定真实环境中的性能上限,因为对于最终落地而言,真实世界的表现才是唯一重要的标准。


为了突破这一瓶颈,近期一些工作开始探索在仿真预训练后,利用少量真实数据对模型进行微调。例如,来自英伟达CMU等机构的研究者提出的ASAP ,通过训练一个残差网络来快速补偿仿真与现实的动态差异;而学界经典的RMA (Rapid Motor Adaptation) 算法也被应用于双足机器人,通过一个适配模块从历史动作中推断环境动力学信息。然而,这些工作大多仍着眼于对动态偏差进行一次性补偿,交互范式也更偏向于离线学习,并未在真实环境中对模型本身进行持续的在线调整。由于人形机器人本身极不稳定,任何微小的失误都可能导致昂贵的硬件损坏,因此在真实环境中直接进行强化学习训练,长期以来被视为一个难以逾越的障碍。

从人类父母教授婴儿学步的过程中汲取灵感,斯坦福大学团队创造性地提出软硬件协同系统RTR (Robot-Trains-Robot)该系统使用一个教师机械臂在现实世界中手把手地指导学生人形机器人进行在线强化学习RTR相关的论文成果收录于CoRL 2025顶会上,项目代码已全部开源


RTR 系统凸显了由机器人教师提供主动物理辅助,对于实现人形机器人真机强化学习的重要意义。同时,为解决真实世界数据采集成本高昂的难题,团队还提出了一种新颖的强化学习算法,通过仅优化一个与环境动力学相关的低维隐变量来快速调整机器人的行为,极大地提升了样本效率。这一算法上的贡献进一步解放了真机强化学习的潜力,在评测中显著超越了 RMA 等传统的在线系统识别基准。


资讯配图

 

1

方法


RTR 系统由硬件和算法两部分构成


1.1硬件设置:教师与学生的协同生态系统


RTR 的硬件系统由教师学生两组机器人组成。


教师系统核心是一台带有力-矩(Force / Torque)传感器的 UR5 六轴机械臂。四根弹性缆绳将机械臂的末端与人形机器人的肩部相连,这种柔性连接可以平滑地传递辅助力,避免刚性连接带来的冲击。在行走任务中,一台可编程的跑步机作为辅助,确保学生始终在教师的臂展范围内。一台迷你 PC 作为教师系统的大脑,统一处理力反馈信号并控制机械臂与跑步机的行为。


使用一个教师机械臂在现实世界中手把手地指导学生人形机器人进行在线强化学习的过程中教师机械臂扮演了多重关键角色它既是保护安全的吊索,防止学生摔倒;也是自动重置的帮手可以在失败后迅速扶起学生继续训练;它还是敏锐的信号源,通过力传感器收集宝贵的训练数据,为学生提供在真实环境中不易获得的奖励信号;更是智慧的教练,通过设置课程学习(Curriculum Learning)进度和施加对抗性扰动,在训练初期帮助学生快速适应环境,再循序渐进地提升训练难度,增强学生的学习效率和策略的鲁棒性。

学生系统学生基于开源的 ToddlerBot 人形机器人 ,它拥有 30 个自由度,体型紧凑且硬件坚固,适合长时间的连续训练。开源的机器人设计使得根据需要对其进行修改更加便捷,一台独立的工作站则负责运行强化学习算法,并在学生手机数据的同时持续将最新的策略模型发送给学生执行。


资讯配图


1.2  算法设计:三阶段式高效Sim-to-Real微调


为了最大化数据效率,RTR 提出Sim-to-Real 过程分为三个的阶段:


1. 仿真训练具有环境适应性的策略在大量域随机化的仿真环境中,训练一个接受编码了环境物理参数(如摩擦力、阻尼等)的隐变量 作为输入的控制策略。该隐变量通过 FiLM (Feature-wise Linear Modulation) [5] 层融入策略网络,使得机器人的策略能够根据不同的动力学环境进行自适应调整。


2. 优化通用初始隐变量由于真实世界的物理参数未知,直接部署第一阶段的模型会面临真实环境中隐变量 该如何设置的难题。为此,研究人员参考域随机化方法的思路,首先在仿真中优化一个通用的隐变量资讯配图,使其在所有见过的仿真环境中都能取得不错的平均表现。这个资讯配图能够引导策略产生能够适应各种环境的动作输出,成为真实世界微调的可靠起点


3. 真实世界在线微调仿真训练的策略加上通用隐变量资讯配图作为环境状态输入,部署到真实机器人上。在教师机械臂的辅助下,冻结策略网络参数,仅在线优化低维的隐变量资讯配图。这种隐变量的优化方式,用极少的数据量就能快速使机器人的步态适应真实世界的动力学特性,实现了极高的微调效率和稳定的微调过程相比之下,直接使用PPO等强化学习算法在真实世界微调策略网络本身,极易让策略不再稳定而产生危险的动作。


资讯配图

 

2

实验


研究人员通过行走和荡秋千两个任务,全面验证了 RTR 系统的有效性。


仿真到现实微调的行走任务中,让机器人在跑步机上精准地追踪目标速度。消融实验证明了 RTR 系统设计的优越性:


教师的辅助效果与固定的吊架相比,能够主动顺应机器人运动的柔性机械臂(XY Compliant)显著提升了学习效果。同时,从高额辅助逐渐过渡到零辅助的课程学习策略(Z Schedule),优于全程高辅助或全程低辅助的固定策略。


微调算法的数据效率RTR 提出的微调隐变量方法,在数据效率和最终性能上均优于微调整个策略网络或微调残差网络的基线方法。仅需 20 分钟的真实世界训练,RTR 就能将在仿真中预训练的行走策略速度提升一倍。


资讯配图


研究人员还进一步设计了对比实验,验证了使用FiLM层向策略网络添加关于环境动态的隐变量条件输入,其效果优于直接将环境动态变量拼接到策略网络的观测中。基于RTR提出方法的真机微调效果,也要强于RMA为代表的在线参数识别基线。


资讯配图

 

除了 Sim-to-Real 任务,还设计了纯真实环境强化学习的荡秋千实验,以展示 RTR系统直接强化学习任务中的潜力。在这个任务中,人形机器人需要学会协调双腿,像孩子一样荡起秋千,以最大化摆动幅度。教师机械臂通过实时力反馈感知学生的摆动相位,在适当时机给予推动(帮助)阻尼(扰动)。实验结果表明,有教师主动参与的帮助扰动课程学习,其效率高于教师仅作为固定吊架的方案,同时教师感知到的力信息,始终作为重要的奖励信号指导学生训练整个学习过程从零开始,在20分钟内就学会了幅度明显的周期性摆荡动作

 


资讯配图


3

总结与展望


RTR 框架的提出,不仅为解决当前人形机器人真机部署与训练的瓶颈提供了切实可行的方案,更重要的是,它引入了主动辅助这一全新的范式来帮助机器人的真实世界学习。这一极具扩展性的框架在未来可以通过使用承载能力更强的工业机械臂或带有力传感的龙门吊系统,将 RTR 的成功经验推广到全尺寸人形机器人,乃至其他各类复杂机器人系统的真实世界强化学习任务中。


END


智猩猩矩阵号各专所长,点击名片关注




声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源 机器人
more
埃斯顿登顶中国工业机器人市场,汽车焊装应用彰显硬实力
台湾人形版图持续扩大:盟立联合义美、新代,推出为工业协作而生的人形机器人 |CyberRobo
人形机器人康养陪护与应急安全管理规模化应用!
“重启”布局移动机器人后,Rethink Robotics再次倒闭
机器人卖车还要迈过几道坎
抢鲜!第十一届中国机器人高峰论坛暨第八届CEO圆桌峰会议程曝光,预约你的参会指南
联盟×戴尔 | 杭州具身智能机器人沙龙成功举办
快讯|智元机器人首秀“韦伯斯特空翻”;露笑科技与开普勒合作;Figure将开发人形机器人数据集等
快讯|Figure融资10亿估值达390亿美元;Rethink Robotics再次倒闭;西湖大学研发昆虫尺度软体机器人等
成果鉴定丨“复杂场景智能巡检机器人系统”通过中国人工智能学会科技成果鉴定
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号