老黄人形发布几天了,但我们越看越觉得该聊的是 Sharpa。

具身智能之心 2026-06-04 17:00

点击下方卡片,关注“具身智能之心”公众号

今年春晚那只盘核桃的手,你大概还有印象。

半年后,它又登上了黄仁勋的发布会上。

6 月 1 日台北 GTC,英伟达推出首款搭载 Sharpa Wave 灵巧手的 Isaac GR00T 参考人形机器人。这台机器人身高约 1.8 米、重约 68 公斤,老黄调侃「跟自己身高体重差不多」。

大脑是英伟达自己的,身子是宇树的(Unitree当天也同步官宣了 H2 Plus,主体结构和 H2 一脉相承)——这两部分,关注具身的人闭着眼都能猜到。

然而,真正该琢磨的,是那双手。

英伟达选择一家圈外低调、但圈里人几乎都门儿清的新加坡公司, Sharpa。

老黄人形发布几天了,但我们越看越觉得该聊的是 Sharpa。图1

这里需要先说清楚英伟达在干什么。它做的是"参考机",很像是 NVIDIA 在给整个行业立的一份标准答案。

本体、芯片、手,每一个零件的选择,都是英伟达在替行业表态:要做人形,就按照这个配置来。

以 Isaac GR00T 为开发底座,本体选宇树(选的是出货量),芯片用自家 Thor、2070 FP4 TFLOPS 的端侧算力,从数据采集到部署还能无缝接进 Isaac 系列仿真和端侧平台——这套组合拳打下来,生态位摆得很清晰。

那么,灵巧手这一票投给 Sharpa,英伟达选的到底是什么?

这篇文章,我们就和大家好好聊聊。

01.

英伟达的持续发力,

是看到了物理AI的数万亿规模


之前,黄仁勋不止一次说过,物理AI有望成为一个价值数万亿美元的市场。

结合他们之前的成果来看:VLA、WAM上的突破,Thor芯片的发布,再到现在一台完整人形机器人。明牌的战略正在被落实,老黄可不想只卖卖显卡和芯片。

他想要转型为全栈AI基础设施服务商,更是致力于定义整个物理AI时代的底层标准和生态系统。

02.

站在宇树的本体上,

用 Sharpa 的手托起了更大空间

这款参考机器人,可以说承担了英伟达对模型和产品落地的想象,也是其对具身的终极理解。

7个自由度的机械臂搭载两个22自由度的灵巧手,加上满配的端侧 Thor 芯片。

更有价值的,是和 NVIDIA 生态的高度融合。

老黄人形发布几天了,但我们越看越觉得该聊的是 Sharpa。图2

1)联合具身本体的一号位,发布了H2 Plus平台

英伟达没有自己做本体,选择了 Unitree。

之前H2刚推出时,一时间觉得科幻场景可能很快会到来。这次,H2 plus的主体结构和H2基本一致,它更像是Unitree联合英伟达,向产业和研究领域推出的一份标准答案。

老黄人形发布几天了,但我们越看越觉得该聊的是 Sharpa。图3

H2跳舞图

从业者,最害怕的就是从零开始,还有就是缺乏生态。往往是每到一个关键模块,就要手搓,费时费力。这次直接把开发和部署平台都搭配好,对开发者来说,是一个经过验证的Pipeline。

你参考管线就能跑起来,有问题还可以追溯和咨询。

不得不说,老黄把最聪明的大脑,装在了全球出货量最大的本体公司里,可以说是非常高明的布局。

硬件不用愁(全球头部本体公司作背书),软件和算法上又非常自信。

老黄人形发布几天了,但我们越看越觉得该聊的是 Sharpa。图4

2)最强本体之外,灵巧手也是关键之选

那么灵巧手呢?

NVIDIA 机器人产品总监 Spencer Huang 表示:灵巧手是人形机器人在真实世界中完成高价值操作任务的关键。

为什么非五指、非触觉不可?Sharpa 自己给过一个很实在的解释。

GTM 副总裁 Alicia Veneziani 在接受采访时曾说:没有触觉,是一种新形式的失明(Tactileless is the new blindness)。

原因并不难理解:视觉天生有遮挡,插 USB 线、擦花瓶背面的时候,视觉根本看不到,触觉就成了唯一解法。

之前,大部份任务集中在两指夹爪、三指夹爪。

原因是五指的夹爪难,硬件结构本身就不好做,加上传感器很精贵,动不动就要维修,成本非常高。

而且,触觉传感器数据怎么用,比如数据结构的组织等也是各种各样。

虽然有一些工作结合触觉开展,但这个领域还处于爆发前夕,需求还处在快速上升的阶段。要想实现物理世界的泛化,灵巧手这关必须要过。

而这一次,英伟达选择了 Sharpa。

03.

为什么英伟达选择了这家公司?


比起早就出圈的宇树,Sharpa 在大众视野里低调得多。

但在懂行人眼里,这只手的分量不轻。要看懂它,得先看灵巧手的传动路线之争。

1)三条路线,Sharpa 押的是最难的那条

一只灵巧手,电机的力怎么传到关节,大体分三条路:

  • 腱绳(tendon-driven):像人的肌腱一样用绳/线缆牵引,最仿生、最紧凑,手可以做得很轻。但绳会磨损、有回程间隙(backlash),力控难、维护是个长期的痛。经典的手如 Shadow Hand。

  • 连杆(linkage):靠刚性连杆传动,出力大、可靠,但自由度受限、体积大,很难做成人手尺寸,偏工业场景。

  • 直驱(direct-drive):电机直接驱动关节,没有中间传动,力控最精准、响应最快、几乎没有损耗。代价是对电机功率密度和散热要求高到变态,想要做成 1:1 的人手尺寸以及高自由度,是工程上的地狱难度。

Sharpa Wave 走的就是直驱,22 个主动自由度,单指尖出力超过 20N,重活轻活都能干。

在我们看来,Sharpa 的本事,不在于选了直驱。而是他们真的把直驱做进了 1:1 的人手尺寸,还做到了 22 自由度。

一句话:没有绝对垃圾的架构,只有不够极致的工程化能力。

对英伟达来说,这很重要。

GTC台北并不是老黄第一次选择Sharpa,在年初爆火的 EgoScale 成果中,英伟达就用上了Sharpa的高自由度灵巧手。

EgoScale 在 20854 小时的第一人称人类视频数据,和不到 4 小时的机器人数据上训练,让行业终于看到了不用再受制于本体数量和遥操作成本的希望。最终的验证,正是在 Sharpa Wave 上完成的。叠 T 恤、把卡片一张张分开、用镊子夹起水果,全是高难度双手灵巧任务,是检验操作天花板最好的方式。

这背后的关键,并不只是“手能动”,而是 Sharpa Wave 在结构上尽可能贴近人手:1:1 人手比例,让人类手部数据更容易迁移到机器人本体;22 个主动自由度,则让它具备接近人手的多指协同能力,能够复现弯曲、捏取、分离、夹持、拨动等细微动作。也正因为这种人手同构设计,Sharpa Wave 才能承接第一人称人类视频中的复杂操作经验,并在真实机器人任务中完成从“看见动作”到“执行动作”的转化。

而除了硬件本身这个被英伟达看重的能力,Sharpa手还有一个我们认为很惊艳的地方,就是他们的动态触觉阵列 —— DTA。

2)那颗"会看的指尖",未来一定会爆发

重点说说触觉,这是我们觉得 Sharpa 最强的底牌。

DTA(Dynamic Tactile Array,动态触觉阵列),简单来讲就是:Sharpa 在每个指尖里搭配了一颗微型摄像头,指尖蒙一层软胶皮,胶皮一接触物体就会变形,摄像头透过胶皮把形变拍下来,算法再反推出接触力的分布。

Sharpa 给它起的说法很贴切。feel by seeing,用看的方式去接触。

它和市面上常见的电容、压阻式触觉不是一个路子。后者是在指尖铺几十到上百个离散力点,告诉你「这儿被按了、多大力」。

DTA 是一整片连续的像素级感知。单个指尖 1000+ 触觉像素,空间分辨率做到亚毫米(<1mm)。简单来讲就是,别的传感器只能给你几个读数,视触觉可以给你一张接触面的高清压力图。

老黄人形发布几天了,但我们越看越觉得该聊的是 Sharpa。图5

并且这张视觉图刷新得很快:180 帧/秒,配上 0–30N 的量程和 0.02N 的灵敏度,能实时做纹理识别和六维力检测。

这是什么概念呢?

用一根细针轻轻戳一下,它能立刻定位到哪个点、多大力,顺手调整动作;一片薯片快被捏裂的那一瞬,接触面会先出现细微的滑移和纹理变化,它看得到,于是知道「到此为止,再使劲就碎了」。

这种对滑移的实时感知(slip detection),正是抓鸡蛋、夹水果、拧螺丝这类活儿能不能干成的分水岭。

按 1:1 人手尺寸设计下来,1mm 级的感知单元几乎没有手感死角。

3)能上产线的手,才是真的手

再好的 demo,扛不住真实的使用强度也无法量产。

据 Sharpa 官方数据,Sharpa Wave 可以承受 250 万次按压循环、4000m 摩擦行程、3200 次机械冲击测试,保护反应时间 0.10s。

老黄人形发布几天了,但我们越看越觉得该聊的是 Sharpa。图6

更省心的是模块化设计:每根手指都是独立模块,坏哪根换哪根,不用整手返厂白白等待一个月。

硬件上的出色,是赢得英伟达青睐的根本原因。

到这里,你是不是以为 Sharpa 就是一家把灵巧手做到极致的硬件公司。

但事实远非如此。

深入调研后,我们发现,如果说灵巧手是 Sharpa 被外界看见的入口,那么本体和大脑,才是它真正想讲的下一层故事。

04.

同样是具身全栈的参与者


在把灵巧手做到顶尖之后,Sharpa 在 CES 2026 上发布了自己的轮式人形机器人 North 和大脑模型 CraftNet。

先说 CraftNet,它是一个 VTLA 模型,全称 Vision-Tactile-Language-Action,比我们熟悉的 VLA 多了一个维度:触觉(Tactile)。

所以 CraftNet 瞄准的就是精细操作。传统 VLA 主要靠视觉和语言决定动作,但精细操作里很多关键信息眼睛看不到。瓶盖拧多紧、鸡蛋会不会捏碎,全靠手上的感觉。

Sharpa 既然把触觉硬件做到了顶尖,自然要让模型把触觉信息用起来。

它的做法是把 System 0/1/2 融合成一个分层 VTLA:高层理解多模态意图,底层翻译成连续、精细的动作。

Sharpa 强调自己是首个把 System 0 引进来的。简单来讲,就是在熟悉的「快思考/慢思考」之外,再往下沉一层,专门管那些接触密集、需要实时调力的「肌肉记忆」级动作。

手接触物体的过程中,CraftNet 持续调用指尖反馈,实时微调每根手指的姿态和发力。

老黄人形发布几天了,但我们越看越觉得该聊的是 Sharpa。图7

North 是一台轮式人形机器人(移动底盘 + 双臂 + 全身控制),整机 75 个自由度,两只手就是 Sharpa Wave。

CES 2026上,North 表演了21点发牌、拍照、做风车、打乒乓等对手感和精细操作的要求都很高的活儿,这正好也是 CraftNet 加 Sharpa Wave的主场。

老黄人形发布几天了,但我们越看越觉得该聊的是 Sharpa。图8

所以,当把这些线连起来,我们明显能感觉到 Sharpa 的野心很大。

他们没有一上来就做全栈。先做出极致的灵巧手,把单点做到行业顶尖立住脚跟之后。再沿着触觉,向上生长出本体和大脑。

由点及面,这种先把一个生态位做透、再慢慢转全栈的打法,要稳得多,也更难被替代。

05.

这一次,行业拿到了一份完整的答案


英伟达一直都扮演着行业规则的制定者角色,这次也一样。

没有去做重复的事情,老黄为行业提供了一份完整的答案,就像特斯拉开源的专利一样,把一份完整的答案直接摆上台面。

别再各自手搓、抓瞎试错,省点力气,focus 在真正的突破上就行。

而这,也可能只是物理AI革命的开始。

更难、更灵活的操作,还得靠硬件、软件到端侧芯片多个维度一起推进。

英伟达、宇树科技、Sharpa,这三家的合作,已经为行业树立了一个不错的范式。


END

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR
more
NVIDIA 全面升级 RTX PC 和 DGX Spark 上的本地 AI 智能体
MotrixArena S2 仿真 3v3 足球赛答疑合集
世界模型榜首易主!跨维智能登顶WorldArena
Agent评测的下半场:为什么需要一个「活的」Benchmark?
复旦教授与腾讯LLM部大咖领衔!中国AI智能体大会定档7月,聚焦自进化、Harness等9大议题
1500美元订单、三场合约、一次跨界:Micro LED光互连不再是“AR专用”
Gartner:Token成本下降不会推动前沿智能普及化
李开复陆奇重仓同一家Harness智能体公司,李笛带队,4个月2轮融资3-5年粮草
尼康CEO放话硬刚ASML:靠自研零部件打价格战,ArF光刻机订单谈判已近尾声
狐讯 | 高德首个海外扫街榜来了;RTX Spark 笔记本价格曝光
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号