RAGNet: 从“看得见”到“想得通”,再到“抓得准”的通用机器人之路 (ICCV'25)

具身智能之心 2025-08-04 09:56

点击下方卡片,关注“具身智能之心”公众号


作者丨Dongming Wu等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

资讯配图
  • Paper: https://arxiv.org/abs/2507.23734
  • Code: https://github.com/wudongming97/AffordanceNet
  • Website: https://wudongming97.github.io/RAGNet/

写在前面:为什么“通用抓取”如此困难?

“让机器人学会抓取物体”一直是机器人领域的重要研究课题。然而,当我们把机器人从实验室的固定台面放到真实的开放世界,例如厨房、仓库、甚至马路边,就会发现老的范式迅速失效:

  • 类别爆炸:真实世界远非50类物体可以覆盖。
  • 环境多变:光照、遮挡、背景纹理、动态物体随时变化。
  • 指令模糊:人类不会永远说“请给我锤子”,而是说“我需要一个能把钉子敲进去的工具”。

一言以蔽之,机器人必须同时具备“功能推理+精细操作”两大能力。

近期,来自香港中文大学、原力灵机、中科院计算所、默罕默德·本·扎耶德人工智能大学、澳门大学等机构的研究者联合发布了全新Affordance Segmentation数据集与模型框架,RAGNet和 AffordanceNet,旨在实现与人类指令对齐的通用抓取机器人。

资讯配图

二、RAGNet:面向通用抓取的大规模推理型数据集

RAGNet是一个大规模、基于推理的可供性(affordance)分割数据集。相比以往仅标注物体位置或类别的传统数据集,RAGNet强调“功能理解+语言推理”,真正让机器人能根据语言理解去执行任务。

资讯配图

2.1 数据集规模

数据均来自开源数据(比如HANDAL、Open-X、GraspNet、EgoObjects等),场景丰富(真实自然场景、机器人平台、第一视角),其中包含27.3万张图像,180个物体类别,2.6万条语言推理指令。

2.2 标注流水线

针对不同数据集和物体类别的特性,研究者们构建了一个标注工具箱,以较小代价收集较多数据。例如,EgoObjects提供了目标框标注,可以直接使用SAM2进行处理,而Open-X仅提供语言描述,需要先使用 VLPart 生成目标框,然后再通过SAM2进行后续处理。又例如,当处理像易拉罐这样的物体时,机器人通常会抓取整个物体,因此需要对整个物体进行标注;而对于像炒锅这样的物体,机器人只需要精确标注其把手部分,以实现有效的抓取。

2.3 推理指令标注

提出三种类型指令:

类型
描述
示例
模板指令
固定模板
“Please segment the affordance map of hammer in this image”
简单推理
提及类别线索
“I need a hammer”
困难推理
完全隐去类别,仅靠功能描述
“I need a tool to drive a nail into wood”
资讯配图

三、AffordanceNet:让 VLM 真正“长出手”

依托RAGNet数据集,研究者们还提出了AffordanceNet模型框架,整体框架由AffordanceVLM(看得见+想得通)和Pose Generator(抓得准)双模块组成。

  • AffordanceVLM:基于视觉-语言分割模型 LISA,并进行了两个关键的改进:a) 增加系统提示词(system prompt);b) 引入了一个独特的 <AFF> token

  • Pose Generator:预测的2D affordance mask与深度图一起被投影到 3D 空间,从而形成3D affordance mask。随后,可以使用抓取模型生成机械臂的抓取位姿。


四、实验全景:零样本、推理、真机三重验证

  1. 零样本检测 即使是从未见过的类别和场景,比如GraspNet novel和3DOI数据集,AffordanceNet表现出色。
资讯配图
  1. 推理性能 对于复杂的推理任务,AffordanceNet依然能够保持出色的表现。
资讯配图
  1. 真实机器人抓取任务 在UR5机器人平台测试中,在没有任何相关场景数据训练的情况下,模型能够听懂指令,给展现出平均70%的抓取成功率。这也是AffordanceNet相比VLA相关方法的巨大优势,VLA往往需要在特定任务上采集足够多的数据,在不同场景以及任务上泛化性较差。
资讯配图

五、未来探讨:与 VLA 框架的协同与定位

RAGNet+AffordanceNet在VLA版图中的角色:

VLA 层级
传统 VLA
RAGNet-AffordanceNet 增强版 VLA
感知
RGB / 2D
RGB-D + 3D Affordance Mask
语言推理
固定模板
Template / Easy / Hard 三级指令
数据飞轮
遥操昂贵
从推理指令到目标抓取,数据自动采集

AffordanceNet 可作为 VLA 的3D 几何-语义前置模块,为低层策略提供“可抓区域先验”,从而:

  • 降低数据采集成本
  • 提高跨域泛化
  • 增强可解释性与安全性(显式掩码一目了然)

六、结语:从“分类”到“功能”,再到“行动”

RAGNet 的最大价值不仅在于“又一个大号数据集”,而在于系统性地把语言推理、可供性分割、目标抓取三者打通。它为 VLA 研究提供了:

  • 数据底座:273k 图像 + 26k 推理指令,开源可用
  • 模型范式:AffordanceVLM → Pose Generator 的“两段式”架构,可插拔、易扩展
  • 评估体系:零样本、推理、真机三路并行,量化开放世界泛化

或许不久的将来,你只需说一句“我的书架快塌了,帮我修一下”,机器人就能在杂物间里找到 L 形支架、电钻、螺丝刀,并自主完成任务。

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC 机器人
more
SimpAgent (ICCV2025 Highlight):上下⽂简化重塑GUI智能体,更少计算,更强性能
英飞凌推出采用Q-DPAK 封装的CoolSiC™ MOSFET 1200V G2,将工业应用功率密度提升至新高度
英飞凌大功率应用EconoDUAL™ 3 CoolSiC™ SiC MOSFET 1200V模块介绍
【新机】曝本月发布 荣耀MagicVFlip2新款小折叠配置曝光
Silicon 100新榜五大趋势总结!
世界GaN日|GaN可能从哪些细分应用市场挑战SiC
开幕倒计时3天!2025DIC显示展逛展攻略公布:展商名录+亮点展品+同期论坛议程+交通指引(附展商名录PDF版下载)
重大突破!会吸奶、呕吐、成长的婴儿机器人,正在改变儿科医学 | npj Robotics发表
破界重构——联发科的AI新生态战略(五):边缘智算优化与NVIDIA ASIC联盟的四层进阶
开幕倒计时5天!2025DIC显示展逛展攻略公布:展商名录+亮点展品+同期论坛议程+交通指引(附展商名录PDF版下载)
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号