无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」

机器之心 2025-10-19 17:14
无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」图1


本文一作曹嘉航,香港大学在读博士生,前北京人形机器人创新中心实习生;共同一作黄翊泽,上海交通大学在读本科生;通讯导师 Andrew F. Luo,香港大学助理教授。


在机器人学习领域,提升基于生成式模型的控制策略(Policy)的性能通常意味着投入巨额成本进行额外的数据采集和模型训练,这极大地限制了机器人能力的快速迭代与升级。面对模型性能的瓶颈,如何在不增加训练负担的情况下,进一步挖掘并增强现有策略的潜力?


香港大学团队开创性地提出了 GPC(General Policy Composition,通用策略组合)框架,为这一挑战提供了全新的免训练解决方案。该框架通过在测试时(test-time)对多个预训练模型进行 “策略组合”,能够创造出一个性能超越任何单一父策略的 “组合策略”。


GPC 作为一个 “即插即用” 的通用框架,能够灵活融合不同架构(如 Diffusion-based Policy、Flow-based Policy)、不同模态(如视觉-动作模型 VA、视觉-语言-动作模型 VLA)的机器人策略,打破了传统性能提升方式对数据和算力的依赖。


无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」图2



提高策略性能

GPC 免训练范式登场


尽管基于扩散模型(Diffusion-based models)的机器人策略已取得显著进展,但其性能的提升始终受限于模型容量和数据规模。传统的后训练优化方法,如监督微调(supervised fine-tuning)需要昂贵的数据收集,而强化学习(reinforcement learning)则面临复杂的奖励工程和大量的在线交互挑战。这些限制使得提升现有先进模型的性能变得既昂贵又耗时。


GPC 框架提出了一种提升策略性能的新范式。它不再依赖于 “更多训练”,而是巧妙地 “组合现有策略”。


GPC 的核心思想是在机器人执行任务的瞬间,通过凸组合(convex combination)的方式,将多个预训练策略的 “决策分数(distributional scores)” 进行动态融合。这种方式不仅简单高效,更重要的是,它建立在坚实的理论基础之上。


创新理论基石:证明 “1+1>2” 的组合潜力


这一理论基石主要包括两个核心发现。


功能层面的提升(Functional-Level Improvement):研究团队证明,对多个预训练策略的决策分数(distributional scores)进行凸组合(convex combination),能够生成一个在单步上具有更低误差的组合分数,它比任何一个单一策略的分数都要更精确。


无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」图3


系统层面的稳定性(System-Level Stability):通过建立一个 Grönwall 型界限,研究证明了单步的误差改善能够沿着整个轨迹传播,从而确保了组合策略在整个生成轨迹上也具有系统性的性能提升和更低的轨迹采样误差。


无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」图4


正是基于这一坚实的数学和系统稳定性证明,GPC 框架得以成立,为机器人能力的增强提供了全新的、有理论支撑的免训练路径。


无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」图5


通用 “策略组合器”

免训练实现 “即插即用”


通用策略组合(GPC)框架的核心优势在于其 “即插即用”(plug-and-play)的通用性,它以免训练的方式,轻松整合了各种机器人策略,打破了模型架构和模态的界限。


GPC 作为一种全新的范式,不再依赖于额外的模型训练,而是通过在测试时(test-time)将多个预训练策略的 “决策分数” 进行动态融合来实现性能增强。


无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」图6


异构策略的灵活架构组合


GPC 的通用性建立在其独特的分数组合机制上,使其能够跨越策略架构和输入模态进行灵活组合:



统一的分数凸组合机制


这种机制通过凸组合的方式,有效地平衡了来自不同条件的信息,使合成的决策分数保持在个体策略的可行凸包内,从而避免了策略执行中的极端或不稳定行为,生成更稳定、更连贯的动作轨迹。


GPC 与 Superposition(叠加原理)的扩展


除了核心的凸组合方式外,GPC 框架还自然地连接了叠加原理(Superposition),提供了更强大的组合操作符。



这些扩展的组合操作符(Logical OR 和 Logical AND)为 GPC 提供了放大策略性能的潜力,能够通过更强的约束或混合机制来进一步提升控制效果。


权重搜索

为不同任务 “量身定制” 最优策略


GPC 框架的权重搜索机制,能为每一次策略组合找到最优的权重配置,从而为不同的任务和场景 “量身定制” 出最强的 “组合策略”。这一机制建立在严谨的理论分析之上,证明了最优权重的存在性,而广泛的实验则揭示了权重分配的关键作用。


无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」图7


通过在测试时(test-time) 对组合权重进行搜索,GPC 能够灵活地适应各种任务场景,持续地实现性能提升。以下是实验中总结出的三大核心发现:



这些发现共同强调了 GPC 在利用不同条件策略优势方面的通用性,以及适当调整权重以适应每个策略性能的重要性。


实验验证

从仿真到真实世界


经过严格测试,GPC 在仿真与真实环境中均展现出超越单一基线方法的性能.


仿真环境测试:在 Robomimic、PushT 和 RoboTwin 等多个主流仿真测试平台上,GPC 的应用带来了显著的性能提升。与单一基线模型相比,GPC 策略在 Robomimic 和 PushT 任务上实现了最高 7.55% 的平均成功率提升,在复杂的 RoboTwin 双臂协作任务上提升了 7%。这表明 GPC 不同任务执行的有效性上表现出色,为实际应用节省了大量的时间和资源。


无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」图8
无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」图9


真实世界:我们采用 PiPER 机器人进行了真机实验。如 Table 5 所示,在 4 个实际任务中,GPC 在每个任务对比单一基线成功率拥有 5-10% 的提升,展示了在真实环境中 GPC 框架的提升策略性能的能力。


下面展示了清理桌面的真机视频:


DP 失败 ❌



DP3 失败 ❌



GPC 成功 ✅



想了解更多关于 GPC 的详细信息,可访问项目主页:

https://sagecao1125.github.io/GPC-Site/


无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」图10


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
普渡机器人具身智能产品矩阵闪耀广交会,以全品类、多形态领航服务机器人出海
报名倒计时!头部玩家齐聚!2025人形机器人年会最强阵容曝光!
2025广智会人形机器人产业主题论坛嘉宾阵容公布!10.29东莞,重磅启动!
中国工业机器人出口激增54.9%:产业实力跃升与半导体自主化的“双赢”
孚腾资本领投、理想汽车跟注!「千觉机器人」再获得亿元投资,站上530亿触觉感知风口
无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」
汽车系统集成商拟募资5.5亿元研发智能机器人;船舶清洗机器人斩获5200万美元融资 | 一周资本大事件
对话智元合伙人姚卯青:智元工业机器人不跟传统机械臂比,明年海外收入占比或达3成
深圳机器人订单潮:在“工业狂欢”与“民用突围”间寻找平衡
太狠了,四条腿被锯掉也能爬!通用大脑开启机器人「无休」时代
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号