加州大学等联合Sharpa联合发布触觉视觉双融合ViTacFormer,这款AI能2.5分钟自制汉堡

具身进化 2025-07-10 10:54

摘要

Abstract


灵巧作是机器人系统的基础能力,旨在以类似人类的方式与物理世界交互。尽管基于视觉的方法发展迅速,但触觉传感对于精细控制仍然至关重要,尤其是在非结构化或视觉遮挡的环境中。ViTacFormer系统通过触觉-视觉跨模态融合与自回归触觉预测,首次实现拟人化机械手长达2.5分钟的高精度连续操作(如11步汉堡制作),任务成功率提升50%,突破视觉遮挡限制,为工业制造与服务机器人提供全新解决方案。



项目地址:

https://roboverseorg.github.io/ViTacFormerPage/#framework


在机器人技术领域,如何让机械手像人类一样灵活操作物体,始终是科研攻关的难点。现有主流方案依赖视觉识别,但在遮挡、复杂物体操作场景中却频频失效。最新研究通过跨模态感知技术,为机器装上了“真实的触觉”,让拟人化机器人手首次实现了持续2.5分钟的高精度操作——甚至能完成包含11个步骤的汉堡制作全流程。

触觉+视觉:给机器装上“仿生神经系统”

灵巧操作的本质是机器与物理世界的动态交互。ViTacFormer突破性地将高分辨率视觉(腕部鱼眼镜头+全局立体摄像头)与指尖触觉传感器(分辨率达320×240)深度融合,构建起类人的感知系统。

其核心在于交叉注意力编码器——如同人类神经系统的信息整合中枢,动态关联视觉场景与触觉反馈。

更具创新性的是自回归触觉预测头设计:系统不仅能感知当前接触状态,更能预测未来0.5秒内的触觉信号变化。这使得机械手在抓取蛋黄酱瓶时,能预判挤出力度;折叠蛋卷时,可提前感知破裂风险。这种主动式感知打破了传统被动触觉的局限,让操作策略具备预见性。

硬件与训练双突破:打造真实世界操作能力

为支撑技术落地,团队构建了顶级硬件平台:

方法

(1)两台Realman机器人臂搭载17自由度仿生灵巧手

(2)四重感知系统:腕部鱼眼镜头(操作视野)、俯视立体摄像头(全局路径)、五指尖触觉阵列(力度反馈)

(3)通过外骨骼远程操作系统收集专家数据,操作员佩戴力反馈手套,沉浸式VR界面实时叠加视觉与触觉信号,实现人机操作的精准映射

在训练机制上,独创渐进式难度课程:从单一物体抓取到多物体组合操作,系统在数百万次跨模态交互中不断优化潜在表征空间。实验显示,新方法在螺钉拧紧、易碎品转移等4项短期任务中,成功率较现有最优系统(如ACT、DP)提升超50%,在视觉遮挡场景下仍保持稳定操作。

里程碑突破:2.5分钟连续执行11步操作

最令人振奋的成果体现在长周期复杂操作中。在汉堡制作挑战中,机器人需要连续完成:

1.开面包盒→2. 取面包片→3. 挤酱料→4. 夹生菜→5. 放番茄片→6. 翻烤肉饼→7. 组合食材→8. 盖顶层面包→9. 插固定签→10. 装盒→11. 关盒封装

ViTacFormer系统成功完成全流程11个阶段操作,持续时长约2.5分钟,成为首个实现拟人手机械手长时程高精度操作的自主系统。当机械指腹感知到酱料瓶剩余量不足时,它能自动调整挤压角度;组合多层食材时,通过实时触觉反馈动态分配指关节压力,避免压碎生菜或挤出酱料。

此项突破标志着机器人操作技术迈入新纪元——当机器拥有了类似人类的视觉-触觉协同能力,工业制造、医疗康复、危险环境作业等领域或将迎来颠覆性变革。

往期文章

全球首篇自动驾驶VLA模型综述重磅发布!麦吉尔&清华&小米团队解析VLA自驾模型的前世今生

字节跳动Seed实验室发布ByteDexter灵巧手:解锁人类级灵巧操作

具身专栏(三)| 具身智能中VLA、VLN、VA中常见训练(training)方法

具身专栏(二)| 具身智能中VLA、VLN分类与发展线梳理

具身专栏(一)| VLA、VA、VLN概述

π0.5:突破视觉语言模型边界,首个实现开放世界泛化的VLA诞生!

斯坦福&英伟达最新论文:CoT-VLA模型凭"视觉思维链"实现复杂任务精准操控

RoboTwin2.0全面开源!多模态大模型驱动的双臂操作Benchmark ,支持代码生成!

开源!Maniskill仿真器上LeRobot的sim2real的RL训练代码开源(附教程)

迈向机器人领域ImageNet,大牛PieterAbbeel领衔北大、通院、斯坦福发布RoboVerse大一统仿真平台

CVPR 北大、清华最新突破:机器人操作新范式,3.3万次仿真模拟构建最大灵巧手数据集

人形机器人四级分类:你的人形机器人到Level 4了吗?(附L1-L4技术全景图)建议收藏!

斯坦福最新论文:使用人类动作的视频数据,摆脱对机器人硬件的需求

爆发在即!养老机器人如何守护2.2亿老人?产业链+政策一览,建议收藏!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI AR
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号