仅需 1 次演示,机器人就能像人手一样抓遍万物?DemoGrasp 刷新灵巧抓取天花板

具身智能之心 2025-10-04 21:33




仅需 1 次演示,机器人就能像人手一样抓遍万物?DemoGrasp 刷新灵巧抓取天花板图1

让机器人用多根手指灵活抓取物体,听起来简单,却是机器人操作领域困扰多年的 “老大难” 问题。想象一下:从拿起手机、握住水杯,到夹起薄如纸片的便签、捏起直径不足 3 厘米的纽扣。这些人类习以为常的动作,对机器人而言,每一步都是高难度挑战。

传统强化学习方法为了让机器人掌握抓取技能,往往要在高自由度(DoFs)的动作空间里反复试错,不仅需要设计复杂的奖励函数和训练课程,还常常 “学了抓杯子,就忘了抓卡片”,泛化能力极差。更棘手的是,仿真环境中训练出的 “抓取高手”,一到真实场景就 “水土不服”——没有了精确的物理参数和物体接触点等 “特权信息”,仅靠 RGB 或深度相机的视觉输入,再加上光照、背景变化的干扰,成功率断崖式下跌。

而那些小巧、纤薄的物体,更是传统方法的 “噩梦”:硬币容易从指缝滑落,卡片难以找到受力点,想要无碰撞地抓起它们,仿佛让机器人 “穿针引线”。复杂的技术流程、居高不下的落地门槛,让通用灵巧抓取始终停留在实验室阶段,难以走进真实生活。

直到 DemoGrasp 的出现,这一切似乎有了新的答案。这款由北京大学、中国人民大学与 BeingBeyond 团队联合研发的通用灵巧抓取框架,用 “1 次演示” 打破了传统方法的桎梏,在仿真与真实场景中双双刷新性能纪录。它究竟是如何让机器人 “一学就会、一抓就准” 的?

仅需 1 次演示,机器人就能像人手一样抓遍万物?DemoGrasp 刷新灵巧抓取天花板图2

DemoGrasp 的核心设计:单演示 + 单步 RL + 视觉迁移

DemoGrasp 的核心创新在于用 “单条成功演示轨迹” 替代 “从零开始的探索”,将高维抓取任务转化为 “演示编辑任务”,再通过单步 RL 优化编辑参数,最终结合视觉模仿学习实现虚实迁移。整体框架如图 2 所示,具体分为三部分:

仅需 1 次演示,机器人就能像人手一样抓遍万物?DemoGrasp 刷新灵巧抓取天花板图3

1. 演示轨迹编辑

  • 核心思路:一条抓取特定物体的成功轨迹(如 “靠近物体→闭合手指→抬起手腕”)包含通用抓取模式,只需调整轨迹中的 “抓取位置” 和 “手部姿态”,即可适配不同物体。
  • 编辑参数
    • 末端执行器变换(:调整手腕的 6D 位姿(平移 + 旋转),决定 “在哪里抓”(如抓取大物体时偏移中心,抓取薄物体时从侧面靠近);
    • 手部关节增量(:调整手指关节角度,决定 “怎么抓”(如抓取小球时手指更闭合,抓取盒子时手指更张开)。
  • 轨迹修改公式
    • 手腕位姿:在物体坐标系下对演示轨迹中的手腕位姿施加变换,抬起阶段()额外增加垂直位移
    • 手指姿态:通过插值调整演示轨迹中的手指关节,从初始张开姿态过渡到 “初始姿态 +” 的目标姿态,保证动作平滑。

这种设计让机器人无需探索全新动作,只需优化 “编辑参数”,大幅降低了动作空间维度。

2. 单步强化学习

传统 RL 需在每一步决策动作,而 DemoGrasp 将任务重构为单步 MDP(马尔可夫决策过程),进一步提升效率:

  • 观测与动作:观测仅包含 “初始手腕位姿、初始物体位姿、物体点云”;动作仅为 “编辑参数()”;
  • 奖励设计:摒弃复杂奖励,仅用 “抓取成功” 和 “碰撞惩罚” 的组合:
    • 无碰撞且抓取成功:奖励 = 1;
    • 有轻微桌面接触(如抓薄物体时手指需贴桌面)且成功:奖励 = 0.5;
    • 失败或严重碰撞:奖励 = 0;
  • 训练效率:通过 IsaacGym 的并行仿真,同时在数千个环境中优化数百个物体的抓取,单 RTX 4090 GPU 训练 24 小时即可收敛。

3. 视觉引导的虚实迁移

为解决真实场景中 “无物体点云 / 精确位姿” 的问题,DemoGrasp 通过模仿学习训练视觉政策:

  • 数据收集:在仿真中记录 RL 政策的成功轨迹,包含 “机器人本体感知(关节角、手腕位姿)、视觉输入(RGB / 深度图)、动作”;

  • 模型训练:用 Flow-Matching(一种生成式模型)训练视觉政策,结合预训练 ViT(视觉 Transformer)提取图像特征,同时通过 “域随机化”(随机变换颜色、光照、相机位姿)缩小仿真与真实的视觉差距;

  • 多相机适配:支持单目 / 双目、RGB / 深度相机,实验证明 “双目 RGB” 性能最优(可减少遮挡、利用纹理信息识别薄物体)。

实验结果:仿真与真实场景双优

论文通过大规模实验验证 DemoGrasp 的性能,核心结果如下:

仿真性能:刷新 DexGraspNet 最优记录

DexGraspNet 是灵巧抓取领域的权威数据集(3.4K 物体),DemoGrasp 在 Shadow Hand 机器人上的表现显著优于现有方法:

仅需 1 次演示,机器人就能像人手一样抓遍万物?DemoGrasp 刷新灵巧抓取天花板图4
  • 关键优势:训练 / 测试的 “泛化差距” 仅 1%,且物体初始位置随机(50cm×50cm 范围),仍保持高成功率,证明空间泛化能力强。

跨机器人形态泛化:适配 6 种不同抓取设备

DemoGrasp 在无需调整超参数的情况下,成功适配 6 种不同形态的机器人(五指手、四指手、三指爪、平行夹爪等),在 unseen 数据集上平均成功率达**84.6%**:

仅需 1 次演示,机器人就能像人手一样抓遍万物?DemoGrasp 刷新灵巧抓取天花板图5
  • 多手指手表现最优:如 FR3+Inspire Hand 在 VisualDexterity 数据集上成功率 99.1%;
  • 平行夹爪有局限:因开合行程有限,在宽物体数据集(EGAD)上成功率仅 49.4%,但仍优于传统方法;
  • 带机械臂的机器人:如 FR3+Shadow Hand 与 “无臂漂浮手” 性能差距仅 1.4%,证明对真实机器人的适配性。

跨数据集零样本测试:175 个物体训练,覆盖 5 类 unseen 数据

实验仅用 175 个物体训练,测试 5 个不同分布的数据集(含大物体、扁平物体、复杂纹理物体),结果如表 2所示:

仅需 1 次演示,机器人就能像人手一样抓遍万物?DemoGrasp 刷新灵巧抓取天花板图6

以 Allegro 手为例,对比传统方法 RobustDexGrasp:

  • 核心结论:DemoGrasp 在所有 unseen 数据集上均超越传统方法,尤其在扁平物体(DGA)和大物体(Omni6DPose)上提升显著,证明其 “演示编辑 + 单步 RL” 能捕捉通用抓取规律,无需针对特定数据集微调。

真实场景性能:110 个物体成功率 86.5%

仅需 1 次演示,机器人就能像人手一样抓遍万物?DemoGrasp 刷新灵巧抓取天花板图7

在真实世界中,用 FR3 机械臂 + Inspire Hand 测试 110 个 unseen 物体(含日常用品、软物体、小薄物体),核心结果:

  • 突破难点:首次实现 “无严重碰撞” 抓取小薄物体(如硬币、卡片),传统方法因无法处理 “手指 - 桌面轻微接触” 而失败;
  • 扩展能力:支持 “语言引导抓取”(如指令 “抓绿色盒子”)和 “杂乱场景抓取”,在真实杂乱场景中成功率超 80%,且对光照、背景变化鲁棒。

消融实验:验证核心组件必要性

仅需 1 次演示,机器人就能像人手一样抓遍万物?DemoGrasp 刷新灵巧抓取天花板图8
仅需 1 次演示,机器人就能像人手一样抓遍万物?DemoGrasp 刷新灵巧抓取天花板图9
  • RL 的必要性:对比 “随机采样编辑参数 + 行为克隆(BC)” 与 “RL 优化”,后者成功率(96.24%)远高于前者(77.56%),证明 RL 能有效优化多模态动作分布;
  • 编辑参数的贡献:手腕旋转()对成功率提升最大(+13%),其次是手腕平移(+6%),手指增量(+2%),说明 “抓哪里” 比 “怎么抓” 更关键;
  • 训练数据量:仅用 175 个物体训练,与 “直接用测试集训练” 的性能差距仅 2.4%,证明 DemoGrasp 数据效率极高。

局限性与未来方向

尽管 DemoGrasp 性能优异,但仍存在不足:

任务局限:无法处理 “功能性抓取”(如抓杯子柄而非杯身)和 “高度杂乱场景”(需先整理物体再抓取);

闭环能力弱:RL 阶段是 “开环政策”(仅用初始观测决策),无法应对动态场景(如物体滑动)或实时调整抓取姿态;

小薄物体仍有提升空间:薄物体成功率 68.3%,虽优于传统方法,但距正常物体(95.3%)仍有差距。

未来方向:

拆分演示轨迹为短片段,让 RL 在片段层面决策,平衡效率与闭环能力;

融合视觉反馈,实时调整编辑参数,应对动态场景;

结合语言模型,提升 “功能性抓取” 的理解能力(如根据 “喝水” 指令抓取杯柄)。

总结

DemoGrasp 的核心价值在于用 “简单设计解决复杂问题”:通过 “单演示轨迹编辑” 降低探索难度,用 “单步 RL” 简化训练流程,用 “视觉模仿学习” 实现虚实迁移,最终在 “通用、高效、鲁棒” 三个维度上突破现有方法的局限。其不仅为机器人灵巧抓取提供了新范式,还因 “低门槛、高泛化” 的特点,为工业抓取、家庭服务机器人等落地场景提供了可行方案。

参考

[1] DemoGrasp: Universal Dexterous Grasping from a Single Demonstration

仅需 1 次演示,机器人就能像人手一样抓遍万物?DemoGrasp 刷新灵巧抓取天花板图10


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
从演奏《青花瓷》到《我和我的祖国》!国内这四家机器人乐队都这么先进了?
Nature | 大幅加速多元电催化剂的科学发现,MIT等推出多模态人工智能-机器人平台CRESt
Seeds | 优理奇机器人完成两轮近亿元融资
狐讯 | 马斯克晒特斯拉人形机器人练功夫;32GB 大显存RTX 4080 SUPER 现身
【AI加油站】机器人设计系列二十三:《神奇的机器人》揭开机器人的神秘面纱:从结构原理到未来展望的全方位探索(附下载)
九月人形机器人新品图鉴
超100亿!九月人形机器人融资创下历史新高
英伟达与富士通合作开发机器人,陈震对撞车事故道歉,小米汽车自己走开非质量问题,Unity 引擎现重大漏洞,这是今天的其他大新闻!
撒贝宁把机器人梗玩出续集!
日本计划明年试制纯国产人形机器人
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号