Science Robotics｜耶鲁大学开源视触觉新范式，看出机器人柔性手的力感知 - 科技区角 Science Robotics

详细会议介绍参看往期文章：（点击蓝字跳转）

IRCTC 2025报告嘉宾重磅揭晓！ 72小时后早鸟票关闭！

截稿延期通知：IRCTC2025九大期刊联合征文延期至7月12日！

摘要：在机器人视触觉传感领域，如何兼顾成本与性能始终是一大挑战。耶鲁大学在《Science Robotics》上发表最新研究，提出了一种“Forces for Free”（F3）新范式。该研究通过观测一个经过特殊优化的开源柔性手（F3 Gripper）的形变，仅利用标准RGB摄像头，便能精准估算接触力，为机器人赋予了几乎零额外硬件成本的力感知能力。借助这样的感知能力，能完成小孔插销、擦拭曲面，甚至写书法这样需要精细力控的任务。

图：使用该3F柔性手进行写书法实验及其力反馈各项指标图

在机器人与物理世界进行交互时，力的感知至关重要。它不仅是完成插拔、打磨等接触式任务（contact-rich tasks）的基础，也是高级人机交互与物理推理的关键。然而，传统的高精度力/扭矩（F/T）传感器价格昂贵、笨重且易因撞击损坏，而集成式的指尖触觉传感器则面临着布线复杂、易磨损和仅能提供局部信息等问题。

近年来，视触觉传感技术为解决这一难题提供了新思路，即利用视觉信号来推断触觉信息。但许多方案依赖于在传感器内部嵌入标记点（如GelSight），或需要定制化的传感皮肤。有没有一种更简洁、更低成本的实现路径？

耶鲁大学的研究团队给出了一个极具吸引力的答案：Forces for Free。其核心思想是，对于一个已经配备了柔性手爪和腕部摄像头的机器人系统，对于外界力的感知能力可以通过软件算法“免费”获得，无需增加任何额外传感硬件。

图：该系统的核心在于利用已有的摄像头和柔性手爪，通过算法解锁力感知能力，无需额外添置昂贵的F/T传感器（如图中箭头所示，F/T传感器仅用于训练和验证）。这也是“3F”中“Free”的核心。

物理媒介：为“被看见”而优化的F3柔性手

实现视觉力感知的先决条件，是拥有一个在受力时能产生稳定、可观测形变的物理媒介。为此，研究团队并没有随意选择一款柔性手，而是在耶鲁大学经典的开源T42手爪基础上，进行了深度优化，设计出F3 (Forces-for-Free) Gripper。优化目标也非常明确：提升基于视觉的力估算信噪比，可以从两个角度来实现：

1.最大化运动学可操纵性 (Kinematic Manipulability)：传统柔性手在某些姿态下可能接近“奇异构型”（singular configuration），此时即便利度发生很大变化，其外观形态也几乎不变，导致力无法被识别。研究团队通过优化手指的连杆长度比和静止角度，使其在工作区间内远离奇异点，确保任何方向的力都能引起足够大的视觉形变。这项优化基于对运动学矩阵的分析，旨在最大化这一可操纵性度量。

2.最小化摩擦与迟滞 (Friction and Hysteresis)：缆绳驱动的柔性手普遍存在摩擦和迟滞效应，这是导致“部分可观察性”（partial observability，即相同的手指形态可能对应不同力值）的根本原因。F3手爪将所有缆绳路径上的金属销钉替换为微型滚珠轴承，并优化布线以减少接触角，从而显著降低了内部摩擦力（从约4.0N降至0.6N），为更精确的力估算奠定了物理基础。

图：F3手爪的设计优化。(左)相较于T42原型，F3采用了等长连杆和滚珠轴承以提升可操纵性并降低摩擦。 (右)运动学可操纵性分析表明，连杆等长且关节角为90°时（黑色连杆所示位置），形变响应最佳。

计算核心：具备时序记忆与视觉焦点的估算器

有了高质量的物理媒介，接下来的挑战便是如何从图像序列中解码出精确的力信息。耶鲁大学的研究团队为此构建了一个精巧的深度学习估算器。

为了应对“部分可观察性”，该团队的解决方案是：引入时间记忆。为了解决由残余摩擦和迟滞效应带来的模糊性，该模型不处理单帧图像，而是输入一段包含近期运动历史的图像序列（如20帧，采样频率1Hz）。模型采用CNN-Transformer架构，其中CNN负责提取每帧图像的空间特征，而Transformer则捕捉这些特征在时间维度上的内在关联。

这种对时空信息的综合处理，让模型能够根据历史运动趋势来推断当前最可能的力状态，有效缓解了“同形不同力”的问题。消融实验证明，20帧的记忆长度能达到最佳性能。

为了应对视觉干扰，该团队采用视觉基础模型加持的方案：真实场景下的背景和被抓物会严重干扰识别。研究团队利用了视觉基础模型SAM (Segment Anything Model)，仅通过少量标注数据进行微调，便能稳健地将手爪从复杂的视觉环境中分割出来。这相当于为估算器戴上了一副“滤镜”，使其能完全专注于手爪本身的形变，实现了对背景和物体变化的鲁棒性。此外，通过在训练中引入随机遮挡的数据增强，模型还能抵抗真实世界中常见的部分遮挡情况。

图：估算器神经网络架构概览。图像序列首先由SAM进行分割以消除视觉干扰，随后由共享的CNN提取特征，最后通过Transformer网络处理时序信息，输出最终的力预测值。

实验验证：从0.2N的精度到闭环动态控制

该系统的有效性在一系列严苛的实验中得到了验证：在对新物体的静态力预测任务中，估算误差在0.2N至0.4N之间。这一预测精度远高于先前相关工作报告的约1.6N的误差，展示了其卓越的性能。

对于动态闭环控制的实验设计，该估算器被成功置于控制环路中，完成了三项复杂的动态任务：

1.孔中插销：通过感知接触力，引导机器人完成探测、对准和插入的系列动作。

2.曲面擦拭：维持恒定的法向力（1N），在不平整的表面上进行擦拭。

3.书法写作：通过实时调整下压力，控制毛笔笔画的粗细，完成汉字书写。

图：估算器在闭环动态任务中的出色表现。无论是精密的装配（上）、力控的表面操作（中），还是需要细腻力度变化的书法（下），系统均能提供准确的力反馈。

在这些任务中，系统均表现出高精度和鲁棒性，平均力误差甚至低至0.15N左右。这是一个非常惊人的数字，这表明该系统在没有额外传感器的辅助下，已经能几乎实现完成这些需要精细力控的任务。

耶鲁大学的这项研究，为低成本机器人力感知提供了一个优雅且实用的解决方案。它不仅是一个巧妙的工程实现，更提出了一种富有潜力的“Forces for Free”新范式，证明了在不增加额外硬件的前提下，仅通过算法和对现有组件（柔性手）的优化，即可解锁高质量的力感知能力，重新定义了视触觉传感的成本效益边界。这也是“Free”的核心所在；此外在系统完整性方面，提供了从硬件优化（F3手爪）到算法设计（时序模型与SAM）再到实验验证的一整套完整、开源的解决方案，极大地降低了其他研究者的使用门槛。

尽管目前该系统主要处理二维力，且响应速度（10Hz）尚不及商业F/T传感器，不适用于碰撞检测等高速场景，但它为大量接触式操作任务提供了足够精确、鲁棒且几乎“免费”的力反馈。

未来，该范式有望扩展至三维力/力矩估算、多指灵巧手，并通过多视角相机来解决更复杂的遮挡问题。这项工作无疑将推动先进力控技术在更广泛的机器人平台（尤其是低成本平台）上的普及与应用。

资料链接：

论文原文:`https://www.science.org/doi/10.1126/scirobotics.adq5046`

开源硬件、代码与数据: 详见论文末尾“Data and materials availability”部分

文章来源：CAAI认知系统与信息处理专委会

如需咨询商务合作、宣传推广、转载开白等事宜，请联系：18355423366 (微信同号)对接。

END