点击下方卡片,关注“具身智能之心”公众号
作者丨Haoyuan Deng等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。

1.前言

双手操作(Bimanual Manipulation)是机器人在家庭服务、制造业以及医疗等场景中不可或缺的能力。相比单臂操作,双臂机器人能够通过协调配合完成更复杂的任务,例如烹饪、组装和物品搬运。
双臂操作系统由于具有极高的自由度,在策略学习过程中面临巨大的挑战。除了需要同时控制两条机械臂的关节和夹爪外,还必须在时间和空间上保持高度协调,否则极易出现动作错位、轨迹交叉等问题。近年来,扩散模型因其在高维连续动作空间中具备强大的分布建模能力,被广泛应用于机器人操作策略学习,在双臂操作中也展现出了良好的扩展性和稳定性。然而,现有基于扩散的策略往往仅关注任务完成率,而忽视了物理安全约束。这种忽视在实际部署中会导致一系列严重的危险行为:例如双臂间的碰撞、夹爪与物体的不当接触(如戳刺、撕裂),甚至双臂末端执行器之间的互撞。这些安全隐患不仅降低了任务的成功率,还可能对机器人本体和操作对象造成不可逆的损坏,限制了其在真实世界场景中的应用价值。
2.简介
目前的扩散式策略生成方法虽然能够在高维动作空间中实现稳定的动作建模与生成,但其核心问题是缺乏安全性意识。现有方法往往只关注如何高效完成任务,却没有在轨迹生成过程中引入明确的物理安全约束,从而导致一系列危险行为:
忽视物理约束:现有扩散策略直接从去噪分布中采样动作,缺乏对双臂空间位置与动态关系的约束,容易导致机械臂轨迹交叉、两臂动作错位、末端执行器不一致等情况。 存在危险交互:常见的风险模式包括双臂夹具互相碰撞、在操作刚性物体时发生撕裂、夹具对物体产生意外戳刺或摩擦,甚至物体之间发生不受控的碰撞。 任务失败率高:由于缺少安全机制,危险交互不仅降低了任务完成率,还可能对机器人本体和操作对象造成严重损坏,限制了系统在真实世界的可用性和可靠性。
为了系统化地理解这些问题,我们在论文中提出了不安全双臂操作分类(Unsafe Bimanual Manipulation Taxonomy)。通过对 65 个双臂操作任务、1320 个示范数据的分析,我们发现超过 96.2% 的不安全行为可以归纳为以下两个大类,五个小类:
物体层面的不安全交互:包括物体之间的碰撞(Object–Object Collision)和动作错位(Behavior Misalignment),例如在倒水任务中瓶口与杯口未对齐导致液体外溢。 夹爪层面的不安全行为:包括夹爪戳刺物体(Gripper Poking)、夹爪拉扯导致物体损坏(Gripper Tearing)、以及双夹爪之间的互撞(Gripper–Gripper Collision)。
在真实部署中,扩散模型的高自由度与灵活性,反而因缺乏安全约束而演变为危险源。因此,迫切需要一种新的框架,既能保持扩散式生成的优势,又能在执行阶段动态引入安全约束,确保双臂操作的可控性与可靠性。
3. 方法

我们提出 SafeBimanual —— 一种在测试阶段进行轨迹优化的框架,可以作为“即插即用”模块无缝接入任何已训练好的扩散式双手操作策略。它的核心创新点在于:不仅保留了扩散模型在高维动作分布建模上的优势,还通过 基于关键点关系的安全代价函数(safety cost) 和 视觉语言模型(VLM)驱动的动态调度,在执行时引入物理约束,保证轨迹既安全又高效。
1. 基于关键点关系的安全约束函数
不同于依赖手工几何规则的方法,SafeBimanual 从 双臂与物体的关键点关系 出发,系统性地总结出五类主要的物理安全约束:
物体碰撞代价(Objects Collision Cost):通过保持物体关键点之间的安全距离,避免双臂同时操纵的物体相撞。

行为对齐代价(Behavior Alignment Cost):例如在倒水任务中,瓶口与杯口的关键点必须在空间上对齐;在拼接或堆叠任务中,两个物体的姿态必须满足一定约束。该代价函数通过关键点的相对位置与方向关系来度量对齐程度。

夹爪戳碰代价(Grippers Poking Cost):利用夹爪尖端与物体关键点的向量关系,约束接近方向,避免夹爪以非预期的角度戳刺物体表面。

夹爪撕裂代价(Grippers Tearing Cost):通过监控双夹爪尖端之间的相对间距是否偏离初始抓取宽度,防止对刚性物体施加撕裂或拉伸力。

夹爪碰撞代价(Grippers Collision Cost):通过计算双夹爪关键点间的距离,维持它们的最小安全间隔,从而避免夹爪之间的互撞。

这些约束函数均是可微的,能够在扩散去噪过程中将梯度直接传递到动作空间,从而在生成轨迹时自适应地修正可能的危险动作。
2. 扩散过程中的引导采样
SafeBimanual 在扩散模型的去噪采样环节中引入能量函数形式的安全约束引导。具体来说:
在每个去噪迭代中,利用噪声预测网络得到“干净动作”的估计; 对该动作施加安全代价函数,并计算梯度; 将梯度反馈注入采样更新,使生成轨迹逐步偏向安全区域。
这种方式类似于“安全引导的采样(guided sampling)”,确保最终生成的轨迹既能完成任务,又能规避高风险动作。
3. 视觉语言模型(VLM)驱动的动态调度
不同任务阶段对安全性的需求是动态变化的:
在搬运或移动两个物体时,物体碰撞代价最为关键; 在倒水或组装时,行为对齐代价占主导; 在精细抓取或交接环节,则需重点约束夹爪戳碰与撕裂代价。
SafeBimanual 借助 Vision-Language Model (VLM) 来识别当前任务阶段及潜在风险模式:
关键点提取:通过 ReKeP、Omni6DPose 等工具获得物体和夹爪的关键点位置; 语义推理:VLM 根据任务语义和视觉输入推断出当前最可能发生的不安全模式; 动态调度:自动选择并组合相应的安全约束函数,只激活必要的代价项,避免冲突或冗余。
这种 “关键点关系 + VLM调度” 的设计,使 SafeBimanual 能够在复杂的双臂操作过程中灵活应对不同阶段的风险,实现对安全性的全流程守护。
4. 实验
我们在 仿真环境 与 真实机器人平台 两个层面,全面验证了 SafeBimanual 的有效性与实用价值。实验不仅关注任务成功率(Success Rate, SR)与危险交互率(Danger Rate, DR),还通过消融研究剖析了各个模块的贡献。
1. 仿真任务(RoboTwin 基准)
我们在 RoboTwin 基准环境中挑选了 8 种具有代表性的双臂操作任务,覆盖了从方块堆叠、双手拿起瓶子、双手物体交接到双手倒水等多样化场景。这些任务几乎涵盖了论文中总结的五类主要不安全模式。具体的测试效果如图3所示,我们提出的SafeBimanual在成功率和危险率上均取得了领先性能。实验结果表明:
整体性能提升显著:SafeBimanual 在三类主流扩散策略(DP、DP3、RDT-1b)上均取得了显著改进,平均成功率提升 13.8%,危险交互率降低 18.9%。 高风险场景优势更突出:在如“倒水”、“双鞋放置”等容易出现多种不安全交互(如碰撞、错位、撕裂)的任务中,SafeBimanual 提升幅度最大,展现出对复杂场景的鲁棒性。 任务类型差异分析:在“积木堆叠(简单)”等语义性错误主导的任务中,SafeBimanual 虽然对成功率提升有限,但仍显著降低了危险交互率,证明其主要价值在于化解物理风险。

图4进一步展示SafeBimanual在机器人双手操纵任务中进行安全约束的可视化效果。相较于基线方法Diffusion Policy,SafeBimanual在不同任务上有效避免了多种不安全交互模式:倒水时候行为不对齐、物体之间碰撞、夹爪撕裂物体,夹爪刺戳物体等。
2. 真实机器人实验(Galaxea-R1)

我们进一步在 Galaxea-R1 人形机器人 上开展了四个真实世界的双臂操作任务,包括“物体交接”、“积木堆叠”、“倒水”等。结果显示:
成功率提升32.5%,危险交互减少30%,远超基线方法。 在长时序挑战“准备早餐”中,SafeBimanual 有效避免了撕裂、碰撞与对齐失败等高风险操作,实现了从物体抓取、餐具摆放到饮料倒入的全流程安全执行,展现了优异的泛化能力与长时稳定性。
这些结果充分证明:SafeBimanual 不仅在仿真中显著提升了扩散策略的安全性与成功率,而且在真实机器人部署中也展现了强大的实用价值,为未来安全可信赖的双臂操作奠定了基础。

相关链接:
项目网站:https://denghaoyuan123.github.io/SafeBimanip/ 论文网站:https://arxiv.org/abs/2508.18268