从点云到动作!分层强化学习助力机器人精准抓取,模拟与现实共进!

3D视觉工坊 2025-08-23 00:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

0.这篇文章干了啥?

这篇文章提出了一种基于分层目标条件强化学习(GCRL)的框架,以提高拟人化机器人手使用铰接工具的操作能力。以往研究较少探索铰接工具的操作,其动态改变形状的特性给灵巧机器人手带来独特挑战。该框架包含两层策略:低级策略使灵巧手将工具调整为不同配置以适应不同大小的物体;高级策略定义工具的目标状态并控制机械臂完成物体抓取任务。通过在合成点云上训练的编码器估计工具的可操作状态,利用特权信息启发式策略生成回放缓冲区,提高高级策略的训练效率。实验部分先在MuJoCo模拟器中使用Soft Actor - Critic(SAC)算法训练策略,采用多种领域随机化技术缩小仿真与现实的差距,并进行消融实验验证努力奖励和特权信息启发式策略对训练效率的提升作用;接着在真实世界中进行验证,使用Azure Kinect DK相机处理图像和点云,对四种不同形状的物体进行抓取实验,首次尝试成功率达54.2%,多次尝试后成功率提高到70.8%,还验证了对六种日常物品的抓取能力。研究结果表明该方法能实现精确、自适应的工具操作,但仍存在局限,未来可扩展到更多铰接工具,并将框架与现有灵巧手抓取技术集成,形成从工具拾取到任务执行的完整流程。

下面一起来阅读一下这项工作~

1. 论文信息

  • 论文题目:Hierarchical Reinforcement Learning for Articulated Tool Manipulation with Multifingered Hand
  • 作者:Wei Xu, Yanchao Zhao, Weichao Guo, Xinjun Sheng
  • 作者机构:State Key Laboratory of Mechanical System and Vibration, School of Mechanical Engineering, Shanghai Jiao Tong University, and Shanghai Key Laboratory of Intelligent Robotics, Meta Robotics Institute, Shanghai Jiao Tong University, Shanghai 200240, China
  • 论文链接:https://arxiv.org/pdf/2507.06822v1

2. 摘要

在以往的研究中,对诸如镊子或剪刀等铰接工具的操作鲜有涉及。与刚性工具不同,铰接工具会动态改变其形状,这给灵巧的机器人手带来了独特的挑战。在这项工作中,我们提出了一个分层的、目标条件强化学习(GCRL)框架,以提高拟人机器人手使用铰接工具的操作能力。我们的框架包含两个策略层:

  1. 一个低级策略,使灵巧的手能够将工具调整成各种配置,以适应不同大小的物体。
  2. 一个高级策略,定义工具的目标状态,并控制机械臂完成物体抓取任务。

我们使用一个在合成点云上训练的编码器来估计工具的可供性状态,具体来说,就是根据输入点云确定不同的工具配置(如镊子的张开角度)如何实现对不同大小物体的抓取,从而实现精确的工具操作。我们还利用一个基于特权信息的启发式策略来生成回放缓冲区,提高高级策略的训练效率。我们通过实际实验验证了我们的方法,结果表明机器人能够有效地操作类似镊子的工具,以70.8%的成功率抓取各种形状和大小的物体。这项研究凸显了强化学习在推进铰接工具灵巧机器人操作方面的潜力。

资讯配图

3. 效果展示

我们的方法成功抓取了六个日常物品。从上到下依次是维生素瓶、胶带、回形针、咖啡胶囊、充电器和泡沫填充物。

资讯配图

4. 主要贡献

  • 提出了一种分层强化学习框架,将工具使用任务分为用于移动工具并定义其目标形状的高级策略,以及用于通过灵巧手根据目标操作工具的低级策略。引入了一种新颖的编码器来提取工具的姿态和可供性形状信息。利用从合成工具点云导出的潜在空间,为灵巧手训练低级工具操作策略。通过使用具有特权信息的启发式控制器生成重放缓冲区,提高了高级策略的训练效率。
  • 利用基于奇异值分解(SVD)的点云配准和基于PointNet的编码器将工具的姿态与形状变化分离,形成了一种稳健的表示。
  • 增加了努力奖励,促使策略减少不必要的手指运动,并在操作工具形状时保持工具姿态稳定,提高了训练效率。
  • 设计了一种具有特权信息的启发式策略用于生成重放缓冲区,提供了一个虽不完美但信息丰富的重放缓冲区,显著提高了高级策略训练的稳定性和效率。

5. 基本原理是啥?

1. 分层目标条件强化学习框架

提出一个分层的目标条件强化学习(GCRL)框架来提高拟人机器人手使用铰接工具的操作能力。框架包含两个策略层:低级策略和高级策略。低级策略以工具状态和手状态为输入,通过灵巧手操纵工具;高级策略以工具和物体状态为输入,生成工具状态目标并控制机械臂定位工具。两个策略层按顺序分别训练。

2. 低级策略原理

  • 工具状态提取:使用在合成点云数据上预训练的编码器提取工具状态,将低级问题表述为目标条件马尔可夫决策过程。通过SVD点云配准计算工具点云与规范点云的粗变换参数,得到工具的线性和角速度。利用PointNet编码器提取反映工具形状的特征,将工具表示为工具相对于手坐标系的速度和角速度以及捕获工具功能和形状的潜在表示两部分。
  • 状态和动作空间:状态空间包括多指手状态、工具状态和给定目标。手状态由当前关节角度和速度表示,工具状态包含速度、角速度和潜在表示。对工具状态应用指数移动平均平滑,低级策略状态是26维向量。使用Schunk SVH手,低级策略以20Hz运行,输出相对关节位置变化作为动作。推荐课程:聊一聊经典三维点云方法,包括:点云拼接、聚类、表面重建、QT+VTK等
  • 奖励设计:引入密集奖励,基于工具潜在空间中平滑实现目标与期望目标的距离,鼓励策略最小化该距离。还引入努力奖励,惩罚不必要的工具姿态变化和过度的手指运动,促进稳定高效的操作。

3. 高级策略原理

  • 状态和动作空间:状态空间包括工具状态和物体状态。工具状态包含平滑平移、平滑欧拉角和潜在表示,物体状态包含物体位置和目标放置位置。高级策略状态是14维向量。使用六自由度Jaka Zu7机械臂,高级策略以20Hz运行,输出五维向量,包括低级策略的目标状态和手坐标系相对于臂基的速度。
  • 奖励设计:定义稀疏奖励,当机器人将目标物体移动到指定目标且距离小于1cm时给予奖励。添加密集奖励,鼓励工具靠近目标物体,物体靠近目标位置。还设置惩罚项,惩罚工具与物体或物体与目标距离超过20cm以及与桌子碰撞的情况。
  • 生成回放缓冲区:设计一个具有特权状态和动作的手工控制器来填充回放缓冲区,加速高级策略的训练。利用特权信息,如镊子两端的精确空间位置和铰链关节的直接控制命令,记录工具和机械臂的状态及动作并存储在回放缓冲区。

4. 抓取初始化和奖励设计

初始抓取预定义,工具牢固固定在手中,消除抓取可变性,使学习集中在操作而非抓取获取上。奖励函数主要关注任务成功指标,隐式鼓励稳定的操作行为,不包含明确的工具/物体掉落惩罚项。

资讯配图
资讯配图

6. 实验结果

文章主要通过模拟和真实世界实验验证了所提出的分层强化学习框架在铰接工具操作方面的有效性,具体实验结果如下:

1. 模拟实验

低级别策略

  • 领域随机化:引入高达150ms的可变状态延迟、随机化控制参数、摩擦系数,合成工具点云并添加随机扰动、高斯噪声和模拟遮挡。
  • 消融研究:添加基于努力的奖励显著加快收敛速度并提高整体性能,使策略减少不必要的手指动作,保持工具姿态稳定。
  • 策略执行:低级别策略成功控制灵巧手操作镊子,适应不同大小的物体。

高级别策略

  • 领域随机化:引入观察延迟、随机化手臂控制器参数、摩擦系数,添加高斯噪声到观察到的物体位置。
  • 消融研究:引入特权缓冲区显著加速训练过程,采用分层强化学习进一步提高学习效率,特权启发式策略增强训练稳定性。
  • 策略执行:高级别策略成功执行基于工具的物体操作任务,包括定位工具、稳定抓取和运输物体到目标位置。

2. 真实世界验证

  • 低级别策略验证:低级别策略在物理机器人系统上精确控制镊子形状,展示了操作铰接工具的鲁棒性和灵活性。
  • 完整分层策略验证
    • 成功率:对四种不同形状(球体、立方体、圆柱体、四面体)的物体进行抓取试验,首次尝试的平均成功率为54.2%,多次尝试后成功率提高到70.8%。
    • 多功能性和鲁棒性:机器人系统成功抓取四种物体和六种日常物体,展示了方法对不同形状的多功能性和鲁棒性。
  • 失败原因分析:失败的抓取通常源于不准确的物体位置估计、握力不足导致的滑动以及在未实现安全抓取前过早提起物体,这可能归因于机器人系统缺乏指尖触觉传感器。
资讯配图
资讯配图
资讯配图
资讯配图
资讯配图

7. 总结 & 未来工作

总结

在本文中,我们探索了一种新颖的灵巧手操作任务,其中机器人手用其手指重塑铰接式工具,并与机械臂协作以进行基于工具的物体抓取。为应对这一挑战,我们提出了一种基于目标条件强化学习(GCRL)的分层框架。高层策略控制机械臂并设定工具状态目标,而低层策略通过灵巧手操作铰接式工具。我们采用基于奇异值分解(SVD)的点云配准和基于PointNet的编码器,将工具的姿态与形状变化分离,形成了一种稳健的表示。此外,我们添加了努力奖励和用于生成重放缓冲区的特权信息启发式策略,显著提高了训练效率。实验证实了我们的表示和框架的有效性。我们的方法达到了70.8%的成功率,展示了精确、自适应的工具操作能力。总之,我们的研究为铰接式、可变形工具的灵巧操作提供了一个有前景的解决方案。

未来展望

尽管取得了这些进展,但我们的工作仍存在一些局限性,需要在未来的研究中加以解决。首先,我们的研究仅聚焦于单一工具;未来的研究可以将这种方法扩展到更广泛的铰接式工具。其次,我们假设工具已经在手中。一个有前景的未来方向是将我们的框架与现有的灵巧手抓取技术相结合,使系统首先学习工具抓取,然后使用低层策略进行形状操作。这种整合将形成一个从工具拾取到任务执行的完整流程。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉1V1论文辅导来啦!

资讯配图

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

3D视觉全栈学习课程:www.3dcver.com

资讯配图

3D视觉交流群成立啦,微信:cv3d001

资讯配图

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
网红城市不再出现,可能因为大家都忙着造机器人
手握“顾拜旦之炬”,北京让全球机器人智竞燃起来了!
【精选报告】机器人专题一:机器人+人工智能工业应用研究报告(附PDF下载)
协作机器人助力武桥重工桥梁钢结构智慧焊接,手拿平板就能焊!
2个月造出世界级机器人,正面硬刚百亿独角兽,这个90后团队如何做到的?
“成都造”高空焊接机器人上岗!聚焦“有需必应 无事不扰”第一线→
Science Robotics 通过人机交互强化学习进行精确而灵巧的机器人操作
两年“新兵”变“黑马”!国资、汇川系资本下注,这家仓储机器人获数千万元A轮融资
没有AI!这个特殊人群用人形机器人走出家门,跟社会重建联系
一周三款移动机器人新品来袭;天太机器人斩获全球首个万台人形机器人大单!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号