【封面文章】浙江大学熊蓉、王越教授团队利用预训练—微调框架有效提升了四足机器人在极限任务中的运动性能

机器人ROBOT 2025-10-15 19:00

本文由“机器人ROBOT”公众号原创,欢迎转载,请务必完整转载全文并在文章初始位置插入本公众号名片和链接。


欢迎引用:

陈词, 余纪宇, 李超, 陆豪健, 高洪波, 熊蓉, 王越. 基于预训练—微调框架的四足机器人结构—控制协同设计[J]. 机器人, 2025, 47(5): 625-635.

在自然界中,美洲狮等具有卓越运动能力的动物通常具有不对称的前腿和后腿,其强壮的后腿能够为跳跃提供强劲的动力。受这一类生物启发提出了一种机械结构与控制策略协同设计的方法,通过优化机器人的腿部长度来提升其整体运动性能首先,引入一种预训练-微调框架,该框架不仅能够为每个候选机械结构提供最佳控制策略,还提升了算法的训练效率。此外,将空间域随机化与正则化方法相结合,显著提高了预训练网络的泛化能力。实验结果表明,所提出的预训练-微调框架显著增强了协同设计算法的性能,并且减少了时间消耗。此外,所提算法在提高机器人运动性能方面远远超越了传统的对控制策略进行独立优化的方法,为提升四足机器人的极限跑酷能力提供了一种新型的解决方案。

如图1所示,算法分为预训练阶段和微调阶段2个阶段。在预训练阶段,开发了一种适用于不同腿长机器人的跑酷策略作为预训练策略。在微调阶段,贝叶斯优化算法迭代地将候选结构参数的适应度作为先验知识,寻找最优结构参数。由于预训练策略并非是每组结构参数的最优控制策略,因此对其在特定结构参数下进行微调以提高准确性。这种微调使得在贝叶斯优化中进行更精确的适应度计算成为可能,从而提升了协同优化的整体性能。

【封面文章】浙江大学熊蓉、王越教授团队利用预训练—微调框架有效提升了四足机器人在极限任务中的运动性能图1

基于预训练-微调框架的结构-控制协同设计算法整体框架

预训练阶段采用空间域随机化技术提升模型的泛化能力。区别于传统的时间域随机化(即在训练过程中动态调整摩擦系数、电机阻尼等参数),本研究聚焦于机器人结构参数的随机化,以训练对结构变化具有鲁棒性的基础策略。针对修改结构参数需反复加载仿真器导致的效率瓶颈,提出空间域随机化技术:利用Isaac Gym的并行计算能力,通过动态修改机器人URDF模型,在单一训练环境中同步训练数千个不同结构参数的机器人。同时,为抑制价值网络在多样化数据上的过拟合风险,引入折扣正则化技术:通过降低折扣因子,减少模型对未来奖励的依赖,使其更聚焦于短期收益。该方法通过降低方差有效改善了模型的泛化能力。

微调阶段在微调阶段,为提升特定结构参数机器人的性能,需对每组候选结构参数执行策略微调。此过程移除了空间域随机化,并将课程训练难度提升至最高级别,确保控制策略充分适配目标结构参数。结构参数优化的目标针对跳高和跳远等跑酷任务,旨在最大化适应度函数。由于结构参数相对于适应度函数不可微,采用贝叶斯优化算法进行黑盒优化:该算法迭代选取候选结构参数,基于预训练模型微调得到优化策略,进而评估特定结构参数下机器人的适应度,并根据反馈结果持续迭代,直至获得最优结构参数及对应的控制策略。

为验证所提方法的有效性,在仿真平台上开展了系统对比实验。

空间域随机化有效性验证设计三组对比实验,如表1所示,结果表明空间域随机化方法的性能显著优于对照组,且独立T检验的P值均小于0.05,证实其具备统计显著性优势

域随机化方法对比

【封面文章】浙江大学熊蓉、王越教授团队利用预训练—微调框架有效提升了四足机器人在极限任务中的运动性能图2

正则化方法性能对比对比四种正则化方法,如图2所示,折扣正则化效果最优,激活正则化次之,无正则化方法再次,阶段性策略梯度表现最差。综合实现简洁性与性能表现,折扣正则化被证明为最优方案。

【封面文章】浙江大学熊蓉、王越教授团队利用预训练—微调框架有效提升了四足机器人在极限任务中的运动性能图3

不同正则化方法在训练期间的累计奖励曲线

协同优化算法对比将所提预训练-微调框架与三种基线算法进行比较,如图3所示,其中Online-PCODP方法将结构参数视为特权信息,采用时间域随机化在81组参数上顺序训练策略结果显示其奖励值集中于最后训练的参数区域,表明存在对先前参数策略的遗忘现象;Offline-PCODP方法基于离线强化学习训练通用策略其高性能仅局限于训练过的参数邻近区域,难以泛化至未见参数;EAT方法采用Transformer架构训练泛化策略,但因原始方法针对低维状态设计,在跑酷任务的高维状态下性能最弱;测试结果表明,本文方法在所有81组结构参数下均取得最高累计奖励值,证明其为结构参数优化提供了更有效的控制策略。

【封面文章】浙江大学熊蓉、王越教授团队利用预训练—微调框架有效提升了四足机器人在极限任务中的运动性能图4

协同设计对比实验热力图

结构优化效果对比:4展示了跳远和跳高任务中结构参数优化前后的机器人运动状态对比:优化前结构在两项任务中均失败,而优化后构型表现优异跳远任务中较长后腿提供更强推进力、较短前腿有效防止跌落;跳高任务中延长的前后腿协同助力攀爬。两项实验验证了协同优化方法在释放机器人跑酷性能潜力方面的有效性。

【封面文章】浙江大学熊蓉、王越教授团队利用预训练—微调框架有效提升了四足机器人在极限任务中的运动性能图5

跳高和跳远任务中不同结构参数下机器人在同一时刻运动状态的对比

【封面文章】浙江大学熊蓉、王越教授团队利用预训练—微调框架有效提升了四足机器人在极限任务中的运动性能图6

机器人机械结构与自然界动物身体结构对比

本文提出一种预训练-微调框架,用于机器人结构与控制的协同优化,旨在提升四足机器人在极限任务中的运动性能。预训练阶段采用空间域随机化与正则化方法,训练出泛化性能良好的控制策略。微调阶段嵌入贝叶斯优化迭代流程,使预训练模型能在每轮优化中针对候选结构参数快速调整。该方法既确保不同结构参数下的策略最优性,又显著缩短优化时间。跳高和跳远任务中与基线算法的对比验证了,除运动控制器性能提升外,机械结构优化亦能改善四足机器人的极限运动表现。如图5所示,跳远任务的优化构型呈现长后腿特征,类比自然界袋鼠发达的高比例后肢,可提供更强推进力;跳高任务中机器人前后腿同步延长类同树栖猴类演化出的长臂结构增强攀爬适应性当前四足机器人多采用腿长不可调的刚性设计本研究可为此类设计提供指导。后续工作可探索新型可伸缩腿部组件实现自适应结构四足机器人进一步拓展其适用性。

浙江大学工业控制技术国家重点实验室陈词博士为第一作者,王越教授为论文通信作者。本文得到了国家自然科学基金(62373322,62173293,62303407,U2013601)的支持。

【封面文章】浙江大学熊蓉、王越教授团队利用预训练—微调框架有效提升了四足机器人在极限任务中的运动性能图7

识别二维码,访问全文PDF

想了解更多,也可下方点击阅读原查看原文。

联系我们 :

【封面文章】浙江大学熊蓉、王越教授团队利用预训练—微调框架有效提升了四足机器人在极限任务中的运动性能图8

电话:024-23970050

【封面文章】浙江大学熊蓉、王越教授团队利用预训练—微调框架有效提升了四足机器人在极限任务中的运动性能图9

E-mail:jqr@sia.cn

【封面文章】浙江大学熊蓉、王越教授团队利用预训练—微调框架有效提升了四足机器人在极限任务中的运动性能图10

网址:https://robot.sia.cn

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
美国最大外卖巨头DoorDash押注配送机器人,行业变革暗潮汹涌
2025沈阳机器人竞技邀请赛十月燃情启幕 高校精英战队会师沈城
诺力股份、极智嘉等入选工业机器人行业规范企业名单
智汇沈城 共创未来|2025沈阳机器人大会即将盛大启幕
智元机器人牵头共建产教融合基地,构筑具身智能产业生态新基石
快讯|前三季度我国出口工业机器人增长54.9%;机器人科技体验店入驻首都机场;国产泳池机器人龙头赴港IPO等
MPS人形机器人解决方案|“芯片+算法+系统”三位一体的创新驱控
【机器人】全球首个!机器人“情绪步态”大模型问世,戳进来一睹为快→
加大投资,ABB机器人超级工厂启用全新AI赋能自动化喷漆车间
全天候,全场景打工!云深处科技新款人形机器人来了
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号