
新智元报道
新智元报道

【新智元导读】SymSkill创新性地融合模仿学习与经典规划,使机器人能从少量演示中归纳技能,并实时组合执行复杂任务。这项成果推动机器人从「记忆动作」迈向「理解任务」,为智能家庭服务机器人带来新突破。
2026年6月初,在维也纳国际会议中心落幕的ICRA 2026上,从多瑙河畔传来消息:
来自宾夕法尼亚大学GRASP实验室的博士生Yifei Shao(邵逸飞) 作为第一作者的论文一举斩获两项ICRA最高学术荣誉:Best Conference Paper Award(大会最佳论文奖) 和 Best Paper Award on Planning and Control(规划与控制方向最佳论文奖)。

论文链接:https://arxiv.org/abs/2510.01661
一篇论文同时揽获两项大奖,在ICRA历史上较为罕见,也标志着GRASP实验室在机器人规划与控制领域的又一次跨越式突破。
让机器人在真实世界中执行复杂的多步骤操控任务,一直是机器人学最核心也最棘手的挑战之一。
现有方法主要分为两大流派,却各自陷入困境:模仿学习反应迅速,但缺乏组合泛化能力,学习到的往往是「单一体策略」,环境稍有变化就无法拆解复用旧技能;而经典的任务与运动规划虽然有良好的符号抽象和组合能力,但规划延迟动辄数十秒甚至上百秒,根本无法支持实时故障恢复。

SymSkill的突破在于——它不再在这两条路径中做选择题,而是搭建了一座桥。论文提出了一套统一的学习框架,将两者的优势无缝融合:离线的符号与技能共创与在线的实时执行。


SymSkill的核心创新可以概括为两个阶段:
离线阶段——符号与技能共创。
与以往需要人工标注和分割演示数据的方法不同,SymSkill能够直接从无标签、无分割的机器人演示数据中,以无监督的方式联合学习谓词、操作符和目标导向技能。

这意味着,机器人只需要观看少量演示(每个任务仅需约5次演示数据),就能自行「归纳」出完成任务所需的符号抽象和技能库。
在线阶段——实时组合与恢复。
执行时,一旦用户指定一个或多个目标谓词,SymSkill就会调用符号规划器来动态组合和重排已学技能以达到符号目标,同时在运动层级和符号层级同时执行故障恢复。配合柔顺控制器,SymSkill能够在人类和环境扰动下实现安全、不间断的执行。


实验数据令人信服。在RoboCasa模拟环境中,SymSkill成功执行了12个单步任务,成功率达85%;面对需要多达6次技能重排的多步复杂任务时,SymSkill仍能从执行失败中稳健恢复。

而最令学界惊叹的是真实机器人实验:在一台真实的Franka机器人上,SymSkill仅用5分钟的无分割、无标签玩耍数据作为训练素材,仅通过目标指令即可操控机器人执行多种任务。这种数据效率在此前的规划系统中几乎不可想象。

这项研究的更深层意义在于,它让机器人从「背答案」进化到了「理解题目」——不再是简单记忆动作序列,而是能够抽象出任务背后的符号结构,并根据现实变化实时调整策略。

SymSkill为下一代通用家庭服务机器人提供了一条从「反应型模仿」走向「推理型执行」的可行路径。

一作Yifei Shao(邵逸飞) 是宾大计算机与信息科学系的博士生,师从Vijay Kumar教授与Pratik Chaudhari教授,并与Nadia Figueroa教授合作。主攻符号规划与运动规划的融合理论。
在该研究中,他主导了SymSkill整体框架的设计与符号规划器的开发,是论文核心思想的主要构建者。其他两位博士生作者为Yuchen Zheng(郑宇辰)和Sunan Sun(孙苏楠)。

参考资料:
https://arxiv.org/abs/2510.01661
编辑:LRST

