作者丨Yi-Lin Wei等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
>>
更多干货,欢迎加入国内首个具身智能全栈学习社区:数码最新资讯平台,这里包含所有你想要的。
在机器人灵巧抓取领域,“通用性” 一直是难以突破的瓶颈——现有方案要么受限于数据集规模,面对新物体、新场景就 “失灵”;要么无法衔接基础模型的抽象知识与机器人的物理执行,生成的动作常因 “不落地” 导致抓取失败。
而中山大学团队提出的OmniDexGrasp,用 “基础模型生成人类抓握图像 + 动作迁移 + 力反馈控制” 的三段式思路,打破了这一僵局:既借助基础模型的泛化能力覆盖多样任务,又通过精准的动作转化与力控策略确保物理可行性,最终在模拟与真实场景中实现了 “跨指令、跨机器人、跨任务” 的全能灵巧抓取。
- 
文章标题:OmniDexGrasp: Generalizable Dexterous Grasping via Foundation Model and Force Feedback
 - 
文章链接:https://arxiv.org/pdf/2510.23119v1.pdf
 - 
项目主页:https://isee-laboratory.github.io/OmniDexGrasp/
 
为什么要重新定义灵巧抓取的框架?
当前灵巧抓取方案陷入了 “两难困境”:要么依赖数据驱动,却因数据集覆盖有限而泛化不足;要么尝试用基础模型,却因 “知识落地” 难题导致执行失效,核心问题可归结为 “无法同时兼顾‘泛化性’与‘物理可行性’”:
| 
 | 
 | 
 | 
|---|---|---|
| 
 | 
 | 
 | 
| 
 | 
 | 
 | 
这些方案都忽略了一个关键:人类抓握是 “泛化经验” 与 “物理交互” 的结合——我们既懂 “怎么抓符合指令”,又能通过触觉调整力度。OmniDexGrasp 正是借鉴这一逻辑:用基础模型生成人类抓握图像(衔接泛化经验),再转化为机器人动作(解决落地问题),最后用力反馈优化执行(确保稳定安全),实现 “从抽象到具体” 的完整闭环。

OmniDexGrasp:如何用 “三段式” 实现通用灵巧抓取?
OmniDexGrasp 的核心设计可概括为 “不直接生成机器人动作,而是以人类抓握为桥梁,串联‘泛化生成 - 动作迁移 - 力控执行’ ”。它完全保留基础模型的泛化能力,同时通过精准的转化与控制策略解决物理落地问题,具体分为三个关键模块:

模块 1:基础模型生成人类抓握图像 —— 让机器人 “看懂该怎么抓”
OmniDexGrasp 不直接让基础模型生成机器人动作,而是先生成 “人类抓握图像”,核心优势有两点:一是基础模型在人类行为数据上训练充分,泛化性更强;二是人类抓握可作为 “通用中间表示”,适配不同机器人手型。具体实现逻辑如下:
输入设计:支持 “全场景指令”——既可以是自然语言(如 “用喷雾瓶给盆栽浇水”),也可以是视觉提示(如标注物体上的抓握区域),还可以是单张演示图(如人类抓握姿势),覆盖真实场景中多样化的用户需求。
生成优化:通过 “正负提示模板” 提升图像质量。例如正面提示明确 “相机视角固定、手从右下进入、抓握后静止、细节清晰”,负面提示排除 “过饱和、模糊、多手指、肢体畸形” 等问题,确保生成的抓握图像既符合指令,又具备物理合理性。
模型适配:兼容主流基础模型——图像生成模型(如闭源的 GPT-Image、开源的 Qwen-Image)和视频生成模型(如闭源的 Kling、开源的 WanX),实验证明闭源模型(GPT-Image、Kling)生成质量更优,但开源模型(Qwen-Image、Wan2.2)经任务微调后可大幅提升性能(如 Wan2.2 微调后稳定性得分从 2.52 升至 3.49)。
模块 2:人类图像到机器人动作迁移 —— 让机器人 “学会怎么动”
生成人类抓握图像后,核心挑战是 “如何转化为机器人能执行的动作”——既要对齐人类抓握的意图,又要适配机器人的关节结构与真实场景的物体 pose。OmniDexGrasp 通过 “三步迁移策略” 解决这一问题:
手 - 物三维重建:还原 “抓握的物理关系”
首先用专业工具重建图像中的三维信息:
- 
人类手重建:用 HaMeR 模型提取 MANO 手模型的关节角度与腕部 6D 位姿,确保抓握姿势的精准还原;  - 
物体重建:用 Hyper3D 模型从原始场景图像中生成物体 mesh(三维网格),再用 Any6D 估算物体尺度,用 MegaPose 获取物体在生成图像中的 6D 位姿;  - 
交互优化:针对基础模型可能出现的 “手 - 物位置偏差”(如深度轴错位),通过 EasyHOI 方法优化手部沿深度轴的位置,确保手与物体的交互符合物理逻辑。  
灵巧重定向:适配 “不同机器人的手型”
将人类 MANO 手模型的姿势,转化为目标机器人手的关节角度。具体分两步:
- 
初始化:复制腕部 6D 位姿,并对齐机器人与人类手 “结构相似的关节”(如拇指根部关节),提供可靠初始值;
 - 
优化:通过最小化 “机器人指尖位置与人类指尖位置的欧氏距离”,微调关节角度,确保抓握姿势的意图一致——无论目标是 6 自由度的 Inspire Hand、16 自由度的 Leap Hand,还是 22 自由度的 Shadow Hand,都能精准适配。
 
可执行动作转换:衔接 “虚拟与真实场景”
基础模型生成的图像可能存在 “物体 pose 幻觉”(如生成图像中物体位置与真实场景偏差),需通过坐标转换修正:
- 
先用电位姿估计模型 FoundationPose 获取真实场景中物体的 6D 位姿;
 - 
再通过 “物体坐标系→真实相机坐标系→机器人臂坐标系” 的两次转换,将虚拟的抓握姿势映射到真实机器人的执行空间,确保动作能精准作用于真实物体。
 

模块 3:力感知自适应抓取 —— 让机器人 “抓得稳、不损坏”
即便生成了精准的动作, open-loop(开环)执行仍可能失败:要么手指闭合过松导致物体脱落,要么过紧损坏脆弱物体(如鸡蛋、玻璃制品)。OmniDexGrasp 通过 “力控策略” 实现闭环优化:
力目标预测:用基础模型(如 GPT-4o)根据物体属性(如 “脆弱”“坚硬”)预测目标抓取力;
双阶段位姿设计:先设计 “预抓握位姿”(手指向外偏移 5cm,避免碰撞),再设计 “挤压抓握位姿”(手指向内偏移 1cm,确保接触稳定);
力约束位置控制:手指从预抓握位姿向挤压位姿移动,实时通过力传感器(如 Inspire Hand 的应变片传感器)监测接触力 —— 一旦达到,立即锁定当前位置,避免过挤。实验证明,该策略能让脆弱物体抓取成功率从 56% 提升至 88%,且无损坏风险。
实验结果:“全能型” 抓取方案如何碾压传统方法?
OmniDexGrasp 在 “模拟 + 真实” 双场景、“多任务 + 多物体 + 多机器人” 维度下的实验,彻底验证了其通用性,核心结论可概括为 “跨场景稳赢,泛化性拉满”。
多任务测试:覆盖 6 类核心场景,平均成功率 87.9%
在真实世界中,OmniDexGrasp 测试了 6 类典型灵巧抓取任务,结果显示其在所有任务中均表现优异:

ablation 实验(对比 “无迁移”“无力控” 版本)显示:无迁移策略时成功率暴跌至 0%-50%(意图一致性近乎为 0),无力控策略时成功率平均下降 40%,证明三个模块缺一不可。
与传统方法对比:泛化性碾压,尤其在新物体上
在语义抓取任务中,OmniDexGrasp 与经典方案 AffordDex(依赖数据集预训练)、SceneDiffuser(扩散模型生成动作)等对比,优势显著:
真实场景(8 类物体):
OmniDexGrasp 在所有物体类别上均大幅超越 AffordDex——例如 “液体容器” 抓取成功率从 25% 升至 80%,“手柄” 从 20% 升至 60%,“脆弱物体” 从 55.6% 升至 91.7%,意图一致性得分普遍提升 2-4 倍(如 “喷雾瓶” 从 3.75 升至 4.60)。

模拟场景(33 类物体,分 “已见 / 相似 / 新类别”):
传统方法在 “新类别” 物体上性能暴跌(如 AffordDex 从已见类别的 4.85 分降至新类别的 2.12 分),而 OmniDexGrasp 凭借基础模型的泛化能力,在所有类别中保持稳定(已见 3.82 分、相似 3.55 分、新类别 3.88 分),成为唯一能应对 “完全陌生物体” 的方案。

跨机器人与操控扩展:不止于抓取,更能做操控
OmniDexGrasp 不仅能适配不同灵巧手(Inspire Hand、Leap Hand、RoboSense Hand、Shadow Hand),还能自然扩展到操控任务:通过基础模型生成 “抓取后物体运动轨迹”(如用 LLM 预测关键点运动、用视频生成模型合成操控视频),再更新动作转换中的物体位姿,即可实现 “抓取 - 移动 - 放置” 的完整操控(如用喷雾瓶浇水、将物体放入容器),为通用机器人操控提供了延伸可能。

关键结论与未来方向
OmniDexGrasp 的价值,在于为灵巧抓取提供了 “用基础模型解决泛化性,用工程策略确保落地性” 的清晰路径,核心启示与未来方向如下:
核心结论
“人类抓握” 是绝佳中间表示:既衔接基础模型的泛化能力(人类数据丰富),又适配不同机器人(无需为每个手型单独训练),解决了 “泛化性与适配性” 的矛盾;
力控是物理执行的关键:仅靠视觉生成动作无法应对真实世界的不确定性,力反馈能大幅提升稳定性与安全性,尤其对脆弱物体不可或缺;
基础模型选择需权衡:闭源模型(GPT-Image)生成质量最优,但开源模型(Qwen-Image)经微调后可满足需求,兼顾成本与性能。
未来方向
多模态观测融合:当前依赖单视角 RGBD 图像,未来可加入多视角、触觉等信息,提升复杂场景(如遮挡、柔性物体)的抓取精度;
操控任务深化:目前操控扩展仍需手动设计轨迹,未来可让基础模型直接生成 “抓取 - 操控” 的完整动作序列,实现端到端通用操控;
实时性优化:当前动作迁移与力控计算存在一定延迟,可通过模型轻量化、硬件加速等方式提升推理速度,适配高动态场景(如移动中的物体抓取)。
总结
OmniDexGrasp 的出现,打破了 “灵巧抓取要么泛化差、要么不落地” 的僵局——它没有陷入 “为了复杂而复杂” 的误区,而是通过 “基础模型生成人类抓握→动作迁移落地→力控优化执行” 的简洁逻辑,实现了 “跨指令、跨机器人、跨任务” 的通用灵巧抓取。对于追求 “快速落地” 的工业场景或家庭服务机器人,这种 “兼顾泛化性与实用性” 的方案,无疑为灵巧抓取技术的产业化提供了极具参考价值的范本。