点击下方卡片,关注“具身智能之心”公众号
作者丨Dongming Wu等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。

Paper: https://arxiv.org/abs/2507.23734 Code: https://github.com/wudongming97/AffordanceNet Website: https://wudongming97.github.io/RAGNet/
写在前面:为什么“通用抓取”如此困难?
“让机器人学会抓取物体”一直是机器人领域的重要研究课题。然而,当我们把机器人从实验室的固定台面放到真实的开放世界,例如厨房、仓库、甚至马路边,就会发现老的范式迅速失效:
类别爆炸:真实世界远非50类物体可以覆盖。 环境多变:光照、遮挡、背景纹理、动态物体随时变化。 指令模糊:人类不会永远说“请给我锤子”,而是说“我需要一个能把钉子敲进去的工具”。
一言以蔽之,机器人必须同时具备“功能推理+精细操作”两大能力。
近期,来自香港中文大学、原力灵机、中科院计算所、默罕默德·本·扎耶德人工智能大学、澳门大学等机构的研究者联合发布了全新Affordance Segmentation数据集与模型框架,RAGNet和 AffordanceNet,旨在实现与人类指令对齐的通用抓取机器人。

二、RAGNet:面向通用抓取的大规模推理型数据集
RAGNet是一个大规模、基于推理的可供性(affordance)分割数据集。相比以往仅标注物体位置或类别的传统数据集,RAGNet强调“功能理解+语言推理”,真正让机器人能根据语言理解去执行任务。

2.1 数据集规模
数据均来自开源数据(比如HANDAL、Open-X、GraspNet、EgoObjects等),场景丰富(真实自然场景、机器人平台、第一视角),其中包含27.3万张图像,180个物体类别,2.6万条语言推理指令。
2.2 标注流水线
针对不同数据集和物体类别的特性,研究者们构建了一个标注工具箱,以较小代价收集较多数据。例如,EgoObjects提供了目标框标注,可以直接使用SAM2进行处理,而Open-X仅提供语言描述,需要先使用 VLPart 生成目标框,然后再通过SAM2进行后续处理。又例如,当处理像易拉罐这样的物体时,机器人通常会抓取整个物体,因此需要对整个物体进行标注;而对于像炒锅这样的物体,机器人只需要精确标注其把手部分,以实现有效的抓取。
2.3 推理指令标注
提出三种类型指令:

三、AffordanceNet:让 VLM 真正“长出手”
依托RAGNet数据集,研究者们还提出了AffordanceNet模型框架,整体框架由AffordanceVLM(看得见+想得通)和Pose Generator(抓得准)双模块组成。
AffordanceVLM:基于视觉-语言分割模型 LISA,并进行了两个关键的改进:a) 增加系统提示词(system prompt);b) 引入了一个独特的
<AFF>
tokenPose Generator:预测的2D affordance mask与深度图一起被投影到 3D 空间,从而形成3D affordance mask。随后,可以使用抓取模型生成机械臂的抓取位姿。
四、实验全景:零样本、推理、真机三重验证
零样本检测 即使是从未见过的类别和场景,比如GraspNet novel和3DOI数据集,AffordanceNet表现出色。

推理性能 对于复杂的推理任务,AffordanceNet依然能够保持出色的表现。

真实机器人抓取任务 在UR5机器人平台测试中,在没有任何相关场景数据训练的情况下,模型能够听懂指令,给展现出平均70%的抓取成功率。这也是AffordanceNet相比VLA相关方法的巨大优势,VLA往往需要在特定任务上采集足够多的数据,在不同场景以及任务上泛化性较差。

五、未来探讨:与 VLA 框架的协同与定位
RAGNet+AffordanceNet在VLA版图中的角色:
★AffordanceNet 可作为 VLA 的3D 几何-语义前置模块,为低层策略提供“可抓区域先验”,从而:
降低数据采集成本 提高跨域泛化 增强可解释性与安全性(显式掩码一目了然)
六、结语:从“分类”到“功能”,再到“行动”
RAGNet 的最大价值不仅在于“又一个大号数据集”,而在于系统性地把语言推理、可供性分割、目标抓取三者打通。它为 VLA 研究提供了:
数据底座:273k 图像 + 26k 推理指令,开源可用 模型范式:AffordanceVLM → Pose Generator 的“两段式”架构,可插拔、易扩展 评估体系:零样本、推理、真机三路并行,量化开放世界泛化
★或许不久的将来,你只需说一句“我的书架快塌了,帮我修一下”,机器人就能在杂物间里找到 L 形支架、电钻、螺丝刀,并自主完成任务。