TouchAnything发布！这次egocentric隐藏的触觉数据和模型都开源了，300项任务......

点击下方卡片，关注“具身智能之心”公众号

论文作者：Jianyi Zhou，Shuo Yang等

现在机器人学会“看”和“听”，下一步是让它拥有“触觉”。

但是触觉数据的获取并不容易…

随着Ego4D等大规模第一人称数据集的提出，基于第一人称（ego-centric）视频数据的具身学习受到了广泛关注。相比传统的真机遥操作数据集，ego-centric数据在采集成本、视角覆盖以及交互自然性等方面具有显著优势，能够更加真实地反映人类与环境的交互过程，因而逐渐成为该领域的重要发展方向。

然而，现有的ego-centric数据集普遍缺乏人类与环境交互中至关重要的一种模态信息——触觉模态。这一关键模态的缺失，使得现有模型难以建模机器人与物理世界之间的接触与力学交互。即便是在抓取、搬运等基础操作任务中，缺乏触觉信息也会导致系统难以判断接触是否稳定或操作是否成功，从而限制了模型在真实场景中的应用能力。

为了解决上述问题，哈尔滨工业大学（深圳）杨朔教授团队提出了业内首个基于第一人称视角的多模态触觉数据集EgoTouch。该数据集同步采集了第一人称视觉信息、双手腕视角视频、双手全掌高分辨率触觉信号以及双手多关节三维位姿数据，实现了视觉与触觉的紧密对齐。在此基础上，团队进一步研发了首个基于第一人称视频的双手触觉估计模型TouchAnything，为从视觉推理触觉信息提供了新的技术路径。

我们也将其收录到具身智能之心开源知识库内，欢迎学习～

TouchAnything发布！这次egocentric隐藏的触觉数据和模型都开源了，300项任务......图1

EgoTouch数据集概览

TouchAnything发布！这次egocentric隐藏的触觉数据和模型都开源了，300项任务......图2

EgoTouch数据集具有以下关键特性：

多视角结合双手全掌触觉：EgoTouch是首个将第一人称视角与双手腕部视角的多视角视频，与双手全掌真实触觉压力数据进行同步采集的数据集。第一人称相机提供全局操作语境，而腕部相机补充了常被遮挡的手物接触细节。

密集且连续的全掌压力：EgoTouch提供了由可穿戴触觉采集手套提供的精确压力分布数据。

极丰富场景的双手操作：EgoTouch数据集提供了超过300项手部精细操作任务，涵盖抓取，按压，工具使用，双手协调等；同时包括室内，室外，商业等丰富的环境场景。

全模态数据且时间同步：所有模态均进行了逐帧时间对齐，包括：三视角视频，双掌压力图，双手手部精确位姿（42个关节）。

1. 与现有数据集相比，EgoTouch提供了最全面的模态信息

EgoTouch数据集包含室内室外等丰富环境信息，包含双掌的全掌精确压力触觉信息，操作物品类型超1000种，总数据超过两百万帧。

TouchAnything发布！这次egocentric隐藏的触觉数据和模型都开源了，300项任务......图3

2. EgoTouch有着极其丰富的任务和场景分布

总体任务被分为：居家，工坊，办公，零售，户外等五个场景类别，每个类别都包含丰富的任务类型。

TouchAnything发布！这次egocentric隐藏的触觉数据和模型都开源了，300项任务......图4

3. 提供了一种可复现的标准化具身灵巧操作全模态数据采集流程

下图展示了杨朔团队设计的标准数采方案，包括三个可穿戴式摄像头，一双Rokoko手部关节动捕手套，三个HTC_Vive定位追踪器和一双压力触觉手套。

TouchAnything发布！这次egocentric隐藏的触觉数据和模型都开源了，300项任务......图5

模型架构

在EgoTouch数据集的基础上，哈工深杨朔团队实现了一种多视角触觉预测模型TouchAnything，建立了该任务的基准方法。该模型使用DINOv2作为视觉骨干，设计了可学习的视角嵌入和跨视角的交叉注意力机制。即使在缺失视角，如只有ego视角时，也可以提供相对准确的触觉预测。

TouchAnything发布！这次egocentric隐藏的触觉数据和模型都开源了，300项任务......图6

实验结果展示

下列视频与图片展示了TouchAnything模型的具体推理结果，可以看到，模型能够准确预测出触觉信息在手掌中的分布情况：

多视角拔插充电器：

双手抛接网球：

单手鼠标操作：

便利店饮料抓握：

超市货品购买：

单手颠乒乓球：

TouchAnything发布！这次egocentric隐藏的触觉数据和模型都开源了，300项任务......图7

多视角输入可以提升触觉预测准确性

TouchAnything发布！这次egocentric隐藏的触觉数据和模型都开源了，300项任务......图8

实验结果表明，多视角输入能够提升触觉预测性能。相比仅使用第一人称视角（ego-centric），融合左右手腕视角的多视角输入在已见与未见物体设置下均取得一致的性能提升，其中三视角联合输入（Ego+wL+wR）在Temporal_Accuracy、Contact_IoU、Volumetric_IoU和MAE等指标上表现最佳。

这一提升主要源于不同视角的互补性：第一人称视角提供整体交互语境，而手腕视角能够补充被自遮挡的接触细节，尤其在抓取和施力阶段有助于更准确地恢复触觉分布。

数据规模提升显著增强触觉预测性能

TouchAnything发布！这次egocentric隐藏的触觉数据和模型都开源了，300项任务......图9

实验结果表明，模型性能随训练数据规模呈现出稳定的扩展趋势（scaling_behavior）。随着数据比例从25%提升至100%，Contact_IoU与Volumetric_IoU持续提升，而MAE逐步降低，且在未见物体上的提升同样显著。这说明所提出方法能够有效从大规模数据中学习鲁棒的视觉-触觉映射关系，并具备较强的跨对象泛化能力。

展望

触觉模态可能是具身智能领域当前最需要的一块拼图。在多模态大模型飞速发展的当下，具身机器人缺乏的是和物理世界精细交互的触觉信息信息。

EgoTouch数据集为当前具身灵巧操作领域提供了稀缺的触觉信息。同时TouchAnything又为现有第一人称视角数据集提供了全新的触觉预测方法，进一步提升了对于第一人称视角信息的利用效率。

研究团队认为，灵巧操作或许是具身智能急需攻克的下一个技术难关，而触觉模态将会发挥主导作用，为高难度的精细操作提供最直接的反馈。另一方面，在World_Action_Model越发引人关注的当下，触觉模态也可以为世界模型提供关键的力学信息，共同构建高置信的状态预测和可靠的动作生成。

论文标题：
TouchAnything: A Dataset and Framework for Bimanual Tactile Estimation from Egocentric Video
作者介绍：
Jianyi Zhou, Ziteng Gao, Feiyang Hong, Zirui Liu, Guannan Zhang, Weisheng Dai, Ruichen Zhen, Haotian Wu, Yinian Mao, Xushi Wang, Yuxiang Jiang, Shuo Yang（通讯作者，shuoyang@hit.edu.cn）
实验室名：
M-PAI Lab, HITSZ
项目地址：
https://jianyi2004.github.io/TouchAnything-Website/

TouchAnything发布！这次egocentric隐藏的触觉数据和模型都开源了，300项任务......图10

END