
当我们解剖当下具身智能的困境,犹如审视一个残缺的智能体。
——资本高歌猛进|核心问题悬置
大模型的“幻觉”问题尚未解决,具身智能的安全漏洞又接踵而至。
前几天,宇树机器人被曝存在严重的无线安全漏洞。
——黑客仅凭BLE接口就能绕过验证直取root权限,而被攻陷的机器人还会自动扩散感染,形成具备物理攻击能力的机器人僵尸网络。
后来宇树科技很快回应:目前已完成大部分修复工作,将在不久后推送更新。
当下的具身智能,似乎处处都是问题。。。
若类比人类,机器人虽然初步具备了“四肢”的运动控制能力,但“大脑”(大模型)会产生幻觉,“视觉”会误解环境,“语言”会错误描述。
就在整个行业沉迷于为这个残缺系统修补高阶功能时,其实还有一个更为基础、却被长期忽视的维度——
触觉。
前段时间我们已经写过不少关于大模型幻觉、机器人抓取、灵巧手相关的文章了。
今天,我们就聚焦于「触觉」这一着笔不多的“新鲜”模态(也极可能成为未来炙手可热的“第三模态”)。
除了盘点触觉模态的发展与方法之外,本文还将探讨触觉如何补足视觉与语言的不足?如何通过多模态融合提升机器人操作与交互能力?以及未来触觉可能会引领的新方向?
为什么触觉是具身智能的关键
长期以来,机器人感知研究陷入 “视觉中心主义” 误区:认为只要视觉足够精准、语言足够通用,就能实现复杂物理交互。
但真实世界的接触密集型任务中,视觉存在先天局限 ——
它无法可靠判断物体的柔顺性(如海绵的弹性)、表面摩擦系数(如湿杯子的打滑风险),更难以捕捉动态接触事件(如抓握时的细微形变)。
触觉不仅不同于单点的力/力矩传感器,更强调在空间上分布的接触信息。
触觉的不可替代性,源于它是唯一能直接获取物理世界 “力 - 形 - 质” 信息的模。
▲图1|触觉在具身智能机器人的未来图景概览,重点突出在感知、处理与仿真方面的关键进展。材料与传感器转换器的创新将提升触觉数据采集能力,包括波形信号、触觉阵列(如电容阵列或磁性阵列)的数据,以及基于视觉的触觉传感器生成的触觉图像。触觉传感器预计将从指尖拓展至整个机器人身体,形成密集的触觉感知网络。该网络将支持本地与集中式处理,使机器人能够理解接触信息并相应地调整动作。触觉仿真也被预期将发挥越来越重要的作用,不仅支持新型传感器设计,还能实现预测性规划。总体而言,这些发展将推动机器人迈向类人化的触觉灵巧性,并展现广阔的应用潜力©️【深蓝具身智能】编译
正是这些能力,让触觉成为机器人完成精细操作和安全交互的基础:
力感知:通过接触力的大小与方向,判断抓握是否稳定(如拿起装满水的杯子时,触觉能感知重量差异,避免倾斜洒水); 形感知:通过局部接触的形变,还原物体的微观几何(如 GelSight 传感器通过凝胶变形,捕捉物体表面的纹理细节); 质感知:通过接触时的反馈差异,区分物体材质(如通过硬度判断芒果成熟度,通过粗糙度选择擦拭用的海绵)。
换句话说,如果说视觉让机器人“看到”,语言让机器人“理解”,那么触觉就是让机器人真正“做得稳、做得巧”的关键一环。
接下来,我们将具体盘点触觉模态的发展与方法,并重点探讨它如何与具身智能结合。

机器人触觉的基本形态
在自然界中,皮肤是最庞大的感官系统:它不仅覆盖全身,还能感知压力、温度、疼痛与形变。
受到启发,研究者们尝试为机器人打造“人工皮肤”,让它们也能通过触觉与外部世界互动。
触觉材料:仿生的“机器人皮肤”
早期尝试使用泡棉、橡胶等柔软材料作为外层包覆,保证灵活性和可塑性;
后来发展出电子皮肤(e-skin),在柔性材料中嵌入电阻、电容或压电元件,能够检测压力、温度和湿度;
光学触觉则使用透明弹性体,结合内部相机捕捉表面形变(如 GelSight、TacTip)。
这些设计让机器人不仅能“感受到”接触,还能在不同任务中获得差异化反馈。
例如,柔软皮肤适合人机安全交互,而光学皮肤则更适合需要高分辨率的精细操作。
传感方式:将物理刺激转化为“信号”
在具身智能应用中,最为常见的几种触觉传感器为:
压阻/压电传感:通过电阻或电荷的变化感知压力,响应快,适合动态信号;
电容式传感:大面积布设电容阵列,可覆盖机器人手臂或躯干;
磁传感:利用磁体位移感知接触力,反应灵敏响应速度极快;
光学触觉:通过光照变化或标记点位移来重建接触形态,分辨率高,和视觉模态天然兼容。
▲图2|由Daimon Robotics 公司联合研发的触觉传感器,其通过高分辨率的光学机构,感知接触表面微小的图像变化,生成高密度的触觉“图像”,从而让机器人具备类人的触觉能力©️【深蓝具身智能】编译
每种方式都有优缺点:
光学触觉能提供丰富图像数据,但需要较强算力实时解析;
电容和压电传感成本低,但灵敏度或鲁棒性受限。
因此在具身智能场景中,往往需要 混合与分布式设计,就像人类不同部位的皮肤有不同密度的感受器一样。
与具身智能的关系
这些材料和传感方式并不是“孤立的工程成果”,它们决定了机器人在执行具身任务时的触觉表现:
在操作任务中:高分辨率的光学触觉可以帮助机器人精确感知滑动和力矩,避免“夹碎”或“掉落”;
在人机交互中:大面积分布的柔性皮肤能实时检测接触,保障安全;
在探索任务中:触觉传感可以补全视觉的盲区,让机器人在黑暗、烟雾或水下环境中依然能获得反馈。
▲图3|在灵巧手的技术演示中,一个非常直观体现性能的展示方式就是利用灵巧手去抓取非常“脆弱”的物体,比如说鸡蛋。这样的Demo可以展示出灵巧手在VLA等技术的加持下对于不同物体的通用抓取能力,而要保证灵巧手在抓取的过程中不会“用力太猛”,则需要触觉传感器的力反馈传感技术加持©️【深蓝具身智能】编译
可以说,触觉的基本形态就是具身智能触觉系统的“硬件地基”。
有了这些“机器人皮肤”和“感知神经”,后续的数据解释、多模态融合和主动探索才有可能发生。

触觉如何增强具身智能
如果说视觉和语言让机器人能够“看懂”和“听懂”,那么触觉则是让机器人能够真正“稳稳地做”。
在具身智能的任务中,触觉的价值主要体现在三个方面:精细操作、复杂环境探索,以及人机交互与安全。
精细操作:从“能抓住”到“抓得好”
视觉语言模型(VLM、VLA)可以为机器人提供目标信息,例如“去拧开瓶盖”。
但在真正执行动作时,机器人往往会遇到力控上的瓶颈:
要多大力度?什么时候停止?物体是否即将滑落?

力与滑动检测:
触觉信号能捕捉压力分布与切向力的变化,从而判断物体是否稳定。比如通过检测振动或皮肤表面拉伸来识别“打滑”,让机器人在掉落前进行力的调整。
软硬度与材质辨别:
按压时的受力变化可以区分软橡胶与硬塑料;触觉图像的细微纹理则能帮助机器人识别布料差异。对于需要柔顺处理的任务(如医疗机器人夹持组织、服务机器人端送玻璃杯),这种能力至关重要。
三维重建与姿态估计:
一些光学触觉传感器(如 GelSight、TacTip)甚至能在局部接触下重建物体表面形状,结合视觉模型修正三维几何信息。这让机器人不仅能“摸出边界”,还能根据边缘姿态进行闭环控制。
▲图4|一个基于触觉的SLAM 及重建流程:首先,图像流经过跟踪模块处理,用于估计物体位姿并在轨迹中选择关键帧。每一个新的关键帧会传递至回环检测模块,用于识别重复访问(回环)。随后,通过结合跟踪与回环信息的位姿图优化,计算得到全局一致的轨迹。最后,重建模块利用优化后的位姿对局部触觉片段进行配准,并将融合为最终的三维模型©️【深蓝具身智能】编译
这些能力共同弥补了视觉单模态的不足,使机器人从“能完成抓取”迈向“能稳定、精准地操作”。
探索与导航:在视觉失效时依然可靠
人类在黑暗中会用手沿墙摸索前进,机器人也可以如此。触觉在探索类任务中,是视觉的关键补充:
在遮挡和极端环境下生效:
农业采摘中,叶片常常遮挡水果;灾后救援或地下矿井场景中,烟雾与灰尘让相机失灵。
触觉传感器则能直接通过接触来定位物体,避免视觉盲区。
主动触觉探索:
机器人通过挤压、滑动、轮廓跟随等主动动作获取更多信息。
这种“边摸边学”的策略,不仅让机器人获得纹理与几何信息,还能在交互中建立更稳健的环境模型。
▲图5|VTLA(结合了触觉信息的VLA)框架:该方法集成了双 ViT 编码器以处理触觉数据,旨在解决视觉与触觉数据之间以及不同触觉传感器之间的固有异质性。第一个 ViT 利用预训练的视觉编码器,从大规模图像数据中继承丰富的语义表征。第二个 ViT(SA-ViT)通过跨模态对比学习进行专门训练,实现触觉、视觉和文本模态之间的语义对齐©️【深蓝具身智能】编译
与控制闭环结合:
触觉数据往往需要实时处理,例如在多指手操作时,每一次接触都可能改变整体受力分布。
借助深度学习或贝叶斯推理,触觉信号可以直接驱动控制策略,让机器人能在不确定环境中保持稳定。
因此,触觉不仅是“备用方案”,更可能在极端环境下成为机器人具身智能的核心感知。
多模态融合:从“视觉+语言”到“三模态智能”
视觉和语言在过去几年被证明可以结合出强大的语义理解能力,但在实际执行时,触觉的缺席导致了“纸上谈兵”。
▲图6|一个结合了触觉的多模态融合框架©️【深蓝具身智能】编译
基本架构和当前的VLA非常类似。
但是通过独有的Tactile-Language Model对触觉输入进行了额外的编码,最终将触觉这一模态与语言模态对其,从而赋予了模型对触觉的理解能力
实际上,视觉和触觉具有天然互补性:
视觉提供全局、远距离的信息;触觉提供局部、细节的反馈。
融合方式包括特征拼接、对比学习、注意力机制,甚至点云对齐(用触觉修正物体姿态)。
在跨模态生成上,已有工作能从视觉图像合成触觉信号,或者反过来从触觉预测视觉效果。
未来的方向,则是构建触觉-视觉-语言三模态大模型——
机器人不仅能理解指令“请把桌子上的玻璃杯递过来”,还能在执行过程中实时用语言反馈:“杯子有些湿滑,我换一种握法更安全。”
这种语义化触觉能力,将是具身智能迈向“自然交互”的关键。
人机交互与安全:赋予机器人“感受力”
随着人形机器人和服务机器人的发展,安全性和自然交互愈发重要。
全身覆盖的触觉皮肤,让机器人能:
在与人接触时感知力度,避免危险碰撞;
在协作时检测和顺应人的动作;
在医疗康复等场景中实现柔顺、可靠的物理交互。
▲图7|由Meta与GelSight公司联合研发的一种人造手指形状的触觉传感器,它通过以人类级别的精度对触摸进行数字化,能够提供丰富而详细的触觉数据,赋能各种类型的具身智能任务©️【深蓝具身智能】编译
实际上类似的人机交互场景还有很多很多,如果说视觉+语言能够让机器人逐渐从实验室走向社会,从定制走向通用,那么触觉则可以赋予机器人更高层的与人类生活的物理世界进行交互的能力。

挑战与展望
尽管触觉在具身智能中的潜力已经被广泛认可,但要真正发挥这一模态的价值,仍面临几方面的关键挑战:
诸如,触觉表示的抽象难题。
视觉有“图像”这一直观表示形式,触觉的等效表示仍待探索。
如何创建触觉的“特征提取”方法?是需要解决的基础问题。
硬件层面:耐用性与规模化不足
目前的触觉传感器在灵敏度和分辨率上已有显著进步,但仍存在耐久性差、制造成本高、加工依赖人工等问题。
对于需要长时间运行的人形机器人或群体机器人来说,触觉皮肤必须既轻便又坚固,并能在全身范围内大规模布设。
数据层面:缺乏大规模、标准化的触觉数据集
视觉和语言的突破离不开大数据的支撑,但触觉数据的获取极其昂贵,还容易因传感器损坏而中断。
目前的触觉数据集往往规模有限、场景单一,缺乏统一的基准。
如何构建开放、可复现的触觉数据集,是推动触觉进入“大模型时代”的关键前提。
算法层面:建模复杂且实时性不足
触觉信号具有强烈的时空特征:同一个动作中,压力分布、滑动趋势和力矩变化往往交织在一起。这种复杂性使得建模困难,更对实时推理提出了挑战。
相比视觉和语言,触觉的深度模型不仅算力消耗大,还难以迁移到不同类型的传感器。
未来展望
触觉与视觉、语言并非竞争关系,而是互补关系。
未来的具身智能有望在统一的表示空间内整合三类信息:
视觉负责场景全局理解;
语言提供语义目标与任务约束;
触觉在执行过程中实时补充细节与安全反馈。
随着传感器制造、仿真平台和多模态学习的不断进步,触觉或将成为继视觉、语言之后的第三个主流模态。

总结
触觉并不是机器人研究里的“新鲜词”,但在具身智能的语境下,它正被重新认识。
没有触觉,机器人就像蒙着手套完成任务,始终难以达到人类的灵巧和稳健;
而当触觉与视觉、语言融合在一起时,机器人才真正拥有了“感受世界”的完整能力。
未来,我们或许会看到更多具备“皮肤”的机器人:它们能分辨物体的软硬粗细,能在黑暗或遮挡下摸索前进,也能在人机交互中做到安全而自然的协作。
触觉,这个曾经被低估的模态,正在成为具身智能走向成熟的关键拼图。
那么问题来了——在你看来,机器人最应该先在哪些场景里具备触觉?
是医疗操作、服务协作,还是极端环境探索?
参考文献
1. VLA-Touch: Enhancing Vision-Language-ActionModels with Dual-Level Tactile Feedback(https://arxiv.org/pdf/2507.17294)
2. OmniVTLA: Vision-Tactile-Language-Action Modelwith Semantic-Aligned Tactile Sensing(https://arxiv.org/pdf/2508.08706)
3. GelSLAM: A Real-time, High-Fidelity, and Robust3D Tactile SLAM System(https://arxiv.org/pdf/2508.15990)
4. Tactile Robotics: An Outlook(https://arxiv.org/pdf/2508.11261)
编辑|阿豹
审编|具身君
工作投稿|商务合作|转载
:SL13126828869(微信号)
>>>现在成为星友,特享99元/年<<<
【具身宝典】||||
【技术深度】|||||||
【先锋观点】|||
【非开源代码复现】||
我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果。
投稿|商务合作|转载:SL13126828869(微信)

点击❤收藏并推荐本文