点击下方卡片,关注“具身智能之心”公众号
今年春晚那只盘核桃的手,你大概还有印象。
半年后,它又登上了黄仁勋的发布会上。
6 月 1 日台北 GTC,英伟达推出首款搭载 Sharpa Wave 灵巧手的 Isaac GR00T 参考人形机器人。这台机器人身高约 1.8 米、重约 68 公斤,老黄调侃「跟自己身高体重差不多」。
大脑是英伟达自己的,身子是宇树的(Unitree当天也同步官宣了 H2 Plus,主体结构和 H2 一脉相承)——这两部分,关注具身的人闭着眼都能猜到。
然而,真正该琢磨的,是那双手。
英伟达选择一家圈外低调、但圈里人几乎都门儿清的新加坡公司, Sharpa。

这里需要先说清楚英伟达在干什么。它做的是"参考机",很像是 NVIDIA 在给整个行业立的一份标准答案。
本体、芯片、手,每一个零件的选择,都是英伟达在替行业表态:要做人形,就按照这个配置来。
以 Isaac GR00T 为开发底座,本体选宇树(选的是出货量),芯片用自家 Thor、2070 FP4 TFLOPS 的端侧算力,从数据采集到部署还能无缝接进 Isaac 系列仿真和端侧平台——这套组合拳打下来,生态位摆得很清晰。
那么,灵巧手这一票投给 Sharpa,英伟达选的到底是什么?
这篇文章,我们就和大家好好聊聊。
01.
英伟达的持续发力,
是看到了物理AI的数万亿规模
之前,黄仁勋不止一次说过,物理AI有望成为一个价值数万亿美元的市场。
结合他们之前的成果来看:VLA、WAM上的突破,Thor芯片的发布,再到现在一台完整人形机器人。明牌的战略正在被落实,老黄可不想只卖卖显卡和芯片。
他想要转型为全栈AI基础设施服务商,更是致力于定义整个物理AI时代的底层标准和生态系统。
02.
站在宇树的本体上,
用 Sharpa 的手托起了更大空间
这款参考机器人,可以说承担了英伟达对模型和产品落地的想象,也是其对具身的终极理解。
7个自由度的机械臂搭载两个22自由度的灵巧手,加上满配的端侧 Thor 芯片。
更有价值的,是和 NVIDIA 生态的高度融合。

1)联合具身本体的一号位,发布了H2 Plus平台
英伟达没有自己做本体,选择了 Unitree。
之前H2刚推出时,一时间觉得科幻场景可能很快会到来。这次,H2 plus的主体结构和H2基本一致,它更像是Unitree联合英伟达,向产业和研究领域推出的一份标准答案。

H2跳舞图
从业者,最害怕的就是从零开始,还有就是缺乏生态。往往是每到一个关键模块,就要手搓,费时费力。这次直接把开发和部署平台都搭配好,对开发者来说,是一个经过验证的Pipeline。
你参考管线就能跑起来,有问题还可以追溯和咨询。
不得不说,老黄把最聪明的大脑,装在了全球出货量最大的本体公司里,可以说是非常高明的布局。
硬件不用愁(全球头部本体公司作背书),软件和算法上又非常自信。

2)最强本体之外,灵巧手也是关键之选
那么灵巧手呢?
NVIDIA 机器人产品总监 Spencer Huang 表示:灵巧手是人形机器人在真实世界中完成高价值操作任务的关键。
为什么非五指、非触觉不可?Sharpa 自己给过一个很实在的解释。
GTM 副总裁 Alicia Veneziani 在接受采访时曾说:没有触觉,是一种新形式的失明(Tactileless is the new blindness)。
原因并不难理解:视觉天生有遮挡,插 USB 线、擦花瓶背面的时候,视觉根本看不到,触觉就成了唯一解法。
之前,大部份任务集中在两指夹爪、三指夹爪。
原因是五指的夹爪难,硬件结构本身就不好做,加上传感器很精贵,动不动就要维修,成本非常高。
而且,触觉传感器数据怎么用,比如数据结构的组织等也是各种各样。
虽然有一些工作结合触觉开展,但这个领域还处于爆发前夕,需求还处在快速上升的阶段。要想实现物理世界的泛化,灵巧手这关必须要过。
而这一次,英伟达选择了 Sharpa。
03.
为什么英伟达选择了这家公司?
比起早就出圈的宇树,Sharpa 在大众视野里低调得多。
但在懂行人眼里,这只手的分量不轻。要看懂它,得先看灵巧手的传动路线之争。
1)三条路线,Sharpa 押的是最难的那条
一只灵巧手,电机的力怎么传到关节,大体分三条路:
腱绳(tendon-driven):像人的肌腱一样用绳/线缆牵引,最仿生、最紧凑,手可以做得很轻。但绳会磨损、有回程间隙(backlash),力控难、维护是个长期的痛。经典的手如 Shadow Hand。
连杆(linkage):靠刚性连杆传动,出力大、可靠,但自由度受限、体积大,很难做成人手尺寸,偏工业场景。
直驱(direct-drive):电机直接驱动关节,没有中间传动,力控最精准、响应最快、几乎没有损耗。代价是对电机功率密度和散热要求高到变态,想要做成 1:1 的人手尺寸以及高自由度,是工程上的地狱难度。
Sharpa Wave 走的就是直驱,22 个主动自由度,单指尖出力超过 20N,重活轻活都能干。
在我们看来,Sharpa 的本事,不在于选了直驱。而是他们真的把直驱做进了 1:1 的人手尺寸,还做到了 22 自由度。
一句话:没有绝对垃圾的架构,只有不够极致的工程化能力。
对英伟达来说,这很重要。
GTC台北并不是老黄第一次选择Sharpa,在年初爆火的 EgoScale 成果中,英伟达就用上了Sharpa的高自由度灵巧手。
EgoScale 在 20854 小时的第一人称人类视频数据,和不到 4 小时的机器人数据上训练,让行业终于看到了不用再受制于本体数量和遥操作成本的希望。最终的验证,正是在 Sharpa Wave 上完成的。叠 T 恤、把卡片一张张分开、用镊子夹起水果,全是高难度双手灵巧任务,是检验操作天花板最好的方式。
这背后的关键,并不只是“手能动”,而是 Sharpa Wave 在结构上尽可能贴近人手:1:1 人手比例,让人类手部数据更容易迁移到机器人本体;22 个主动自由度,则让它具备接近人手的多指协同能力,能够复现弯曲、捏取、分离、夹持、拨动等细微动作。也正因为这种人手同构设计,Sharpa Wave 才能承接第一人称人类视频中的复杂操作经验,并在真实机器人任务中完成从“看见动作”到“执行动作”的转化。
而除了硬件本身这个被英伟达看重的能力,Sharpa手还有一个我们认为很惊艳的地方,就是他们的动态触觉阵列 —— DTA。
2)那颗"会看的指尖",未来一定会爆发
重点说说触觉,这是我们觉得 Sharpa 最强的底牌。
DTA(Dynamic Tactile Array,动态触觉阵列),简单来讲就是:Sharpa 在每个指尖里搭配了一颗微型摄像头,指尖蒙一层软胶皮,胶皮一接触物体就会变形,摄像头透过胶皮把形变拍下来,算法再反推出接触力的分布。
Sharpa 给它起的说法很贴切。feel by seeing,用看的方式去接触。
它和市面上常见的电容、压阻式触觉不是一个路子。后者是在指尖铺几十到上百个离散力点,告诉你「这儿被按了、多大力」。
DTA 是一整片连续的像素级感知。单个指尖 1000+ 触觉像素,空间分辨率做到亚毫米(<1mm)。简单来讲就是,别的传感器只能给你几个读数,视触觉可以给你一张接触面的高清压力图。

并且这张视觉图刷新得很快:180 帧/秒,配上 0–30N 的量程和 0.02N 的灵敏度,能实时做纹理识别和六维力检测。
这是什么概念呢?
用一根细针轻轻戳一下,它能立刻定位到哪个点、多大力,顺手调整动作;一片薯片快被捏裂的那一瞬,接触面会先出现细微的滑移和纹理变化,它看得到,于是知道「到此为止,再使劲就碎了」。
这种对滑移的实时感知(slip detection),正是抓鸡蛋、夹水果、拧螺丝这类活儿能不能干成的分水岭。
按 1:1 人手尺寸设计下来,1mm 级的感知单元几乎没有手感死角。
3)能上产线的手,才是真的手
再好的 demo,扛不住真实的使用强度也无法量产。
据 Sharpa 官方数据,Sharpa Wave 可以承受 250 万次按压循环、4000m 摩擦行程、3200 次机械冲击测试,保护反应时间 0.10s。

更省心的是模块化设计:每根手指都是独立模块,坏哪根换哪根,不用整手返厂白白等待一个月。
硬件上的出色,是赢得英伟达青睐的根本原因。
到这里,你是不是以为 Sharpa 就是一家把灵巧手做到极致的硬件公司。
但事实远非如此。
深入调研后,我们发现,如果说灵巧手是 Sharpa 被外界看见的入口,那么本体和大脑,才是它真正想讲的下一层故事。
04.
同样是具身全栈的参与者
在把灵巧手做到顶尖之后,Sharpa 在 CES 2026 上发布了自己的轮式人形机器人 North 和大脑模型 CraftNet。
先说 CraftNet,它是一个 VTLA 模型,全称 Vision-Tactile-Language-Action,比我们熟悉的 VLA 多了一个维度:触觉(Tactile)。
所以 CraftNet 瞄准的就是精细操作。传统 VLA 主要靠视觉和语言决定动作,但精细操作里很多关键信息眼睛看不到。瓶盖拧多紧、鸡蛋会不会捏碎,全靠手上的感觉。
Sharpa 既然把触觉硬件做到了顶尖,自然要让模型把触觉信息用起来。
它的做法是把 System 0/1/2 融合成一个分层 VTLA:高层理解多模态意图,底层翻译成连续、精细的动作。
Sharpa 强调自己是首个把 System 0 引进来的。简单来讲,就是在熟悉的「快思考/慢思考」之外,再往下沉一层,专门管那些接触密集、需要实时调力的「肌肉记忆」级动作。
手接触物体的过程中,CraftNet 持续调用指尖反馈,实时微调每根手指的姿态和发力。

North 是一台轮式人形机器人(移动底盘 + 双臂 + 全身控制),整机 75 个自由度,两只手就是 Sharpa Wave。
CES 2026上,North 表演了21点发牌、拍照、做风车、打乒乓等对手感和精细操作的要求都很高的活儿,这正好也是 CraftNet 加 Sharpa Wave的主场。

所以,当把这些线连起来,我们明显能感觉到 Sharpa 的野心很大。
他们没有一上来就做全栈。先做出极致的灵巧手,把单点做到行业顶尖立住脚跟之后。再沿着触觉,向上生长出本体和大脑。
由点及面,这种先把一个生态位做透、再慢慢转全栈的打法,要稳得多,也更难被替代。
05.
这一次,行业拿到了一份完整的答案
英伟达一直都扮演着行业规则的制定者角色,这次也一样。
没有去做重复的事情,老黄为行业提供了一份完整的答案,就像特斯拉开源的专利一样,把一份完整的答案直接摆上台面。
别再各自手搓、抓瞎试错,省点力气,focus 在真正的突破上就行。
而这,也可能只是物理AI革命的开始。
更难、更灵活的操作,还得靠硬件、软件到端侧芯片多个维度一起推进。
英伟达、宇树科技、Sharpa,这三家的合作,已经为行业树立了一个不错的范式。