
要想真正做到通用机器人,除了做好触觉AI,别无选择。
作者|苏霍伊
编辑|王博
今年以前,Sharpa都很神秘。
很多人以为Sharpa是一个做机器人灵巧手公司,因为Sharpa灵巧机械手Wave在ICRA 2025、CES 2026、GTC 2026连续亮相,还登上了今年总台央视春晚的舞台。它能精准发牌、打乒乓球、盘核桃,实现如同人手一般的精细化操作。

Sharpa灵巧机械手Wave在GTC上展示,图片来源:Sharpa
但Sharpa对自己定位远不止于此。
在GTC 2026上,Sharpa通过实物和视频展示了其完整技术栈,包括灵巧机械手Wave、人形机器人North以及融合视觉、触觉与语言的模型系统CraftNet。

Sharpa人形机器人North,图片来源:「甲子光年」拍摄
Sharpa成立于2024年,全球总部位于新加坡,制造与研发中心位于中国上海,商业运营总部位于美国加州硅谷山景城。虽然Sharpa创始团队因为过往在自动驾驶领域的经历而受到关注,但是Sharpa一直保持着独立运营的状态。
近期,「甲子光年」来到了Sharpa硅谷办公室,见到了Sharpa GTM副总裁、欧洲区总裁Alicia Veneziani和Sharpa研究科学家、学术负责人张凯峰。
这是Sharpa核心团队成员首次与媒体进行深度对话,对于外界好奇的公司定位,Alicia Veneziani告诉「甲子光年」:“我们的秘密武器是触觉AI,我们的核心定位是一家以触觉AI为驱动的全栈灵巧机器人公司。”
相比主要依赖视觉的机器人动作,Sharpa更专注于触觉驱动的机器人灵巧操作。
这一能力被认为是机器人完成复杂现实任务的关键门槛。宇树科技创始人、CEO王兴兴近期表示:“我觉得目前对于具身智能或者机器人来说,移动和动作大部分问题已经解决掉了,但对于抓取和操作这部分,尤其触觉相关的问题目前没有解决,这也直接限制了具身智能或者人形机器人大规模在工厂和家庭去部署。”
过去两年,具身智能行业的叙事几乎被视觉与语言主导:VLM、VLA、世界模型……让机器人看懂世界成为主线。但Sharpa选择了一条更难、也更少人走的路径:从“手”的感知出发,而不仅仅依赖“眼睛”。
Sharpa的技术路径建立在两个核心能力之上:一是通过仿真环境进行大规模技能训练;二是结合视频与触觉数据,训练其视觉-触觉-语言-动作模型(VTLA),使机器人能够学习人类的操作方式,并实现更高程度的自主化。
为支撑这一训练范式,Sharpa在GTC期间宣布与英伟达联合开发Tacmap仿真触觉系统,作为触觉驱动机器人学习的重要基础设施。该框架通过共享的高精度几何结构表示,实现了高真实度与高计算效率之间的平衡。Sharpa表示,相关仿真框架及代码资产未来将开源,以便与更广泛的机器人社区共享研究成果。
Alicia Veneziani和张凯峰,一位站在市场战略前线,一位深入模型系统底层。这次对话中,我们探讨了五个方面的话题:
-
Sharpa为什么会引发关注?
-
触觉是不是灵巧操作的关键?
-
CraftNet的创新之处?
-
为什么英伟达会和Sharpa合作?
-
Sharpa的运营与商业计划是什么?
本文为「甲子光年」对话Sharpa核心团队实录,经「甲子光年」整理编辑,在不改变原意的基础上有所删改。
1.要做就做与人类1:1同构灵巧手

甲子光年:之前很多人以为你们是一家做灵巧手的公司,所以你们对自己定位是什么?
Alicia:可能是Sharpa的灵巧手做得太好了(笑),导致很多人以为我们就是个做灵巧手的公司。
而我们的秘密武器就是触觉以及触觉AI,我们的核心定位是一家以触觉AI为驱动的全栈灵巧机器人公司。
从去年5月份我们在ICRA(国际机器人与自动化会议)第一次亮相时,我们带去的就是一整台完整的机器人。但当时所有人的注意力全被那只手吸引了。

Alicia Veneziani,图片来源:Sharpa
甲子光年:的确,不论是去年的ICRA,还是今年的CES和GTC,你们展位的人都不少。
Alicia:实际上,我们从一开始就没打算只做手,我们一直在做机器人整机。
我们内部有个比喻:我们造的这只灵巧手,其实更像是汽车的发动机。我们要把各种不同的系统集成到这辆“车”里,所以我们本质上是“造车”的(做全栈机器人系统),只不过我们的手做得特别好,这只手就成了我们这辆车的核心发动机。

Sharpa GTC展位,图片来源:Sharpa
甲子光年:这个比喻很有意思,我也发现,其实你们一直在强调机器人的“灵巧操作”以及“全身控制”,而不光是“手”。
张凯峰:这其实是我们的愿景。我们常说“We manufacture time by making robots useful”(我们通过让机器人变得有用,来为人类创造时间)。我们想做真正能干活、有用的机器人,去承担那些人们不愿意干的脏活累活,从而把人类的时间真正解放出来。
甲子光年:我注意到,Sharpa灵巧机械手Wave是和人类1:1同构的,所以做到1:1同构很难吗?
张凯峰:灵巧手做到1:1同构非常难。比如要做到成年男性的手部大小,还要具备人手大部分的自由度。我们的灵巧手有很多特性,比如指尖力矩能达到两公斤,运动频率是四赫兹,你需要兼具速度和力量。其次,要在这么小的空间里集成强有力的电机,同时做好整个系统的集成,工程难度极大。
Alicia:我认为这取决于我们如何定义“相似”。如果我们要求外观和功能都相似,希望机械手能像人手一样拥有同等的自由度、完成同等范围的精细动作,就需要把大量内部零件塞进一个极小的表面积里。这意味着必须使用超微型的驱动器,在极其有限的空间内实现同等功能,这就是保持1:1比例的难点所在。
甲子光年:但是业内也有声音说,灵巧手硬件本身似乎并不那么重要。
Alicia:现在有个误区,有人觉得有了AI算法控制,硬件问题就不存在了。这完全是错的,硬件的痛点依然在那儿。所以我们坚持深耕硬件工程,才能自己设计组件并快速迭代。大部分公司的手只能往大了做,但做大了就用不了人类的工具,比如普通的剪刀。
甲子光年:之前我们也看过各种灵巧手产品。有的公司会强调手的抓握力和负载能力,你们似乎没有强调这方面能力。
Alicia:如果他们的目标是工业里的分拣(pick and place)或搬运,那负载能力当然重要。但搬运东西真的需要人形机器人、需要灵巧手吗?
我们的核心聚焦点是灵巧操作(dexterous tasks)。这其中可能也会涉及搬运,但那绝不是我们最核心的应用场景。所以除了负载能力,我们必须考量更多其他维度的指标。
甲子光年:为什么说22个自由度是一个非常关键的设计?为什么偏偏是22个?
Alicia:其实这跟“为什么要做成1:1类人手”逻辑有点类似。人手大概有27个自由度,但在机器人上,22个自由度已经完全足够用了。这是我们在成本、工程实现难度和实际功能之间找到的一个最佳平衡点。

Sharpa灵巧机械手Wave,图片来源:Sharpa
甲子光年:已经有其他头部机器人公司使用了Wave,甚至它还上了春晚。你们有什么优势能让客户买单?
张凯峰:我想最主要的原因有两点。
第一,一致性,这包括我们不同批次的硬件之间高度一致,同时我们的Sim-to-Real Gap足够小。我们自己做过很多Sim-to-Real的算法和模型,在这个过程中不断迭代并更好地标定了我们的硬件,从而把这个Gap降到了最小。
第二,可靠性。我们的手确实能经受住高强度、长时间的使用,并且性能非常稳定。
甲子光年:Wave目前的售价是一只5万美元,你们是怎么定价的?
Alicia:其实这并不是公开标价(list price),我们目前只为客户提供定制报价(custom price)。
甲子光年:你们团队是如何平衡产品性能和成本的?价格可能再降低一些吗?
Alicia:在设计时,我们第一优先级的考量绝对是性能(performance)。我们必须确保这只手在各类场景中能真正干活。其次是极高的可靠性(reliability),因为我们着眼于长期的服务场景,它必须能扛得住长时间的持续使用。第三个考量才是成本。因为如果达不到及格的性能,成本再低也没意义。
我们的核心聚焦点是灵巧操作,而不在搬重物。如果只是搬运,用个便宜的夹爪就够了,客户完全没必要花高价买一只复杂的灵巧手。
解决技术问题后我们肯定会盯紧价格。只要我们不是用“黄金”来造手,凭借团队扎实的硬件工程能力,我们有信心把价格降到大规模量产所需的水平。
大家看BOM(物料清单)就知道硬件底座的成本逻辑,一旦行业进入大规模量产,比如未来出货量达到100万台时,规模效应自然会把成本打下来,所以我们对控制成本非常有信心。
2.没有触觉,是一种新形式的失明
甲子光年:今天机器人已经可以跑、跳、走,但在精细操作上仍然不如人类。从技术角度看,机器人灵巧操作的核心瓶颈是什么?
张凯峰:核心瓶颈就是数据。
灵巧操作有三类数据来源。第一类是遥操作数据。它最大的痛点是“操作员感受不到机器人的感受”,遥操作员操作起来非常不直观(not intuitive),所以很难用这种方式去采集像手中把玩(in-hand manipulation)这类极度精细的操作数据。
第二类是以人为中心的数据采集方式。比如斯坦福大学团队(Stanford)队做的同构外骨骼手套DexUMI,以及麻省理工学院(MIT)和加州大学伯克利分校(UC Berkeley)联合推出的无源手部外骨骼系统DexOP。DexUMI会带来视觉上的Gap,因为腕部相机看到的是人戴着数据手套,而不是机械手;而DexOP则相反,它看到的是灵巧手本身,所以视觉Gap小,但是对于高自由度的灵巧手来说,它的状态Gap会比较大。
第三类就是动捕(MOCAP)数据。其实又回到了刚才说的functional retargeting的挑战。这个问题真的非常难,尤其是实时的重定向。我们不仅希望在空间上把人手关键点1:1映射过去(kinematics-based),更希望“操作语义”是一致的,这是非常困难的。
甲子光年:还有其他难点吗?比如模型和评测维度?
张凯峰:模型维度的话,最大的挑战在于鲁棒性(robustness)和泛化能力(generalization)。你能不能做到物体级别、环境级别甚至任务级别的泛化?能不能拿出一个真正具有99.999%鲁棒性的通用策略?目前还做不到。
评测方面也是限制我们算法迭代效率的瓶颈。一个是可靠性问题。今天测10次,成功率80%和70%其实说明不了太大问题,可能只是A策略比B策略碰巧多成功了一次。另一个是人力成本极高。
评测则需要大量人力去控制环境变量、重置场景、统计数据,极其消耗精力。这些都是目前限制灵巧操作发展的核心瓶颈。
甲子光年:触觉是不是灵巧操作的关键?
张凯峰:我认为极其重要。
因为在操作过程中,无论是数据采集还是模型推理,都会遇到严重的“自遮挡”或者被物体“遮挡”的问题。此外,触觉能赋予机器人“手感”。人类在做微操时是有精细手感的,但目前的机器人还做不到这点。
甲子光年:Alicia,我记得你们曾经提到“Tactileless is the new blindness(没有触觉,是一种新形式的失明)”。
Alicia:是的,我们坚信,如果没有触觉,有些任务机器人根本无法完成。特别是那些步骤繁琐的Long-horizon(长视距/长程)任务,想完全依靠视觉让机器人自主完成,如果不是不可能,也是极其困难的。
我们想想人类的操作就明白了:如果你想擦一个花瓶,你的手会绕到花瓶背面去擦,这时你的眼睛是看不到手的对吧?但你依然能擦干净,而且不会把花瓶打碎,因为你能“摸”到它。在这种情况下,视觉是被遮挡(occluded)的。
再比如把数据线插进USB接口、或者把零件卡进去的时候,因为空间太狭小,摄像头不可能无死角覆盖,你根本看不到线头插进去的瞬间。这时候,触觉就成了唯一的解法。
同时凯峰和清华大学合作的《Spatially-anchored Tactile Awareness for Robust Dexterous Manipulation》论文,更是证明了有了触觉,一些原本机器人根本不可能自主完成的任务,比如插USB线、安装灯泡、发扑克牌等变得可能了。

《Spatially-anchored Tactile Awareness for Robust Dexterous Manipulation》论文,图片来源:受访者
有大量顶级学术研究证实了触觉在加速机器人训练中的作用。这就是我们如此看好触觉AI的原因:它不仅是我们的信仰,更得到了科学界的验证。
甲子光年:我突然觉得这挺像自动驾驶领域的情况:行业里既有特斯拉那种纯视觉路线,也有“摄像头+激光雷达”的融合方案。你们提到了机器人触觉,其实很像激光雷达在自动驾驶中的角色。一旦机器人的视觉受阻或存在盲区,触觉就能作为全新的数据源来补足视觉短板。
Alicia:确实很像,但我认为触觉在机器人身上的重要性,超过了激光雷达在车上的重要性。
车的逻辑是“避障”,它所有的目标是“不要碰到任何东西”,碰到就是事故。而机器人的逻辑相反,它无时无刻不在跟这个世界“接触”,尤其是手部。
对于那些看不见或处于视觉盲区的地方,触觉尤其不可或缺。
甲子光年:做好触觉,有哪些挑战?
Alicia:这件事在技术上极其复杂,主要有三个核心维度的挑战。Sharpa研究副总裁朱雪洲在GTC的演讲就详细提到了几个核心原因:一方面是凯峰说的映射问题,你必须得有这样一只带触觉的灵巧手,才能实现底层的物理分层;另一方面是模态竞争问题,比如视觉和触觉之间会有模态竞争;最后还有一个关键点,就是计算成本的开销问题。
3.从粗略动作到精准动作
甲子光年:具身智能的研究大致分为两个核心方向:Locomotion(移动能力)与Manipulation(操作能力)。Sharpa提出的CraftNet是一种VTLA(Vision Tactile Language Action,视觉-触觉-语言-动作)模型,我的理解是,你们在Locomotion与Manipulation之外增加了第三个维度:Perception(感知),对吗?
张凯峰:我常常开玩笑说,Locomotion其实也是一种特殊的Manipulation——是人用两只脚在“操控”地球。如果今天我们已经彻底解决了操作问题,回过头看,一定能用同一套框架既解决移动、又解决操作。
这两者最大的不同在于:Locomotion是将“自身状态”调整到目标状态,而Manipulation是将“被操作的物体”调整到目标状态。这就要求你必须实时获取被操作物体的姿态信息,也就是Perception。
2000年以前做机器人的人,常常假设Vision Perception(视觉感知)问题已经解决了,所以直接在action(动作)层面寻求突破点。但今天我们发现这远远不够,必须把感知和动作放到一个闭环里去做。
甲子光年:CraftNet的分层设计很像人类的神经系统。System 2负责想,是推理大脑(the Reasoning Brain);System 1负责动,是运动大脑(the Motion Brain) ;System 0负责做,是交互大脑 (the Interaction Brain) 。但是这三个系统频率不一样,如何避免系统之间的“打架”?

CraftNet,图片来源:Sharpa
张凯峰:首先我介绍一下CraftNet里System 0的含义。在Locomotion领域,现在也出现了System 0的概念,比如Figure机器人模型Helix 02里就有。它的概念是:当你推机器人一下,它能下意识地保持身体平衡不摔倒,这是一种自适应的底层行为。
而在我们的Manipulation里,System 0意味着什么呢?它能把System 1输出的“粗动作”和操作意图,结合力觉(Force)和触觉(Tactile)信息,转化为一个精准的动作。
刚才我们讲到遥操作、动捕等数据收集上的挑战,这些挑战引导我们设计了一个“coarse-to-fine(由粗到细)”的架构。也就是说,先由上层生成一个粗动作,再通过System 0把它变成精细化的操作。
关于“系统打架”的问题。其实它们并不会打架,这就像一个分频(frequency division)设计。System1输入的是低频的表征,输出一个相对高频的动作;而到了System 0,它执行的是更高频的底层操作。高低频之间是解耦的,所以互不影响。
甲子光年:这么看,System 0其实更加通用。
张凯峰:对,它是非常通用的,我们把它叫做motion primitives(运动基元)。
同时,我们的System 0也非常聚焦,它聚焦在你“快要摸到、以及指尖触碰到物体的那一瞬间”的下意识反应。
从速度反馈上也能看出来,System 1大概是10Hz的频率,而到了System 0直接飙到100Hz了,它必须极速输出一个下意识动作来完成微操。
甲子光年:就像我的手碰到了这个水杯,碰到的一瞬间,底层系统要立刻下意识地决定用多大的力度去抓住它,是这样吗?
张凯峰:除了意图,还涉及你具体怎么去抓。正如我刚才提到的,有些动作你是很难采集到数据的,比如in-hand manipulation(手内操作/掌内操作)这种极度精细的动作。
目前业内其他家应该还没有做到System 0这个阶段。
甲子光年:相比于其他没有System 0的同行,你们的系统反应会更快?
张凯峰:System 0要解决的核心是“操作手感”以及“最后1毫米接触”的问题。 刚才提到数据采集有挑战,你很难采集到足够多样化的运动基元 (Motion Primitives),尤其是手内操作数据。
因此我们认为,System 1最终可能只是由数据金字塔或相对低质量的数据学出来的一个Coarse action(粗略动作)。把这个手势传递给System 0后,System 0会结合力觉和触觉信息,将其“翻译”成Precise action(精准动作),从而完成微操。
甲子光年:有些医疗手术机器人也强调精度能达到毫米级甚至亚毫米级,你们有什么不一样?
张凯峰:本质不一样,它们属于专机专用机器人,和我们要做的General(通用)不一样。我们希望做的是通用的机器人,是能帮人去干各种脏活、累活的,这些任务都不是特定、固定的。
甲子光年:在实际生活中,有没有更贴近日常、更直观的例子来解释System 0的作用?
张凯峰:比如我要拿起这罐啤酒,我用的力道是恰到好处的。如果你试图从我手里把啤酒抽走,我会下意识地增加握力——这就是System 0在起作用。
第二点,我们把这种抓取叫做Gentle Grasp(柔和抓取),手感非常柔和。如果今天没有System 0的操作能力,机器人可能只会粗暴地Power Grasp(强力抓取)。
因为遥操作员其实是感受不到机器人抓取力度的,为了保证东西不掉,他们只能捏得很紧、用很大的力。但这不对,System 0要解决的就是这种“恰到好处”的触觉反馈。
我们的灵巧手,即使是去操作纸牌、操作脆弱的折页,从平面上抠起来时都不会让它变形,而是完好无损地拿起来。
甲子光年:我们习以为常的抓取动作,其实是人类的双手已经在潜意识里完成了极度精细的操作,但真正要在机器人手上复现时,技术难度的差别就显现出来了。
张凯峰:对,因为人体的底层就运行着一个类似System 0的控制器(controller)。
甲子光年:过去两年行业里都在卷VLA、VLM,而今年初Sharpa发布了CraftNet,提出了一层新的架构System 0。后来,美国机器人公司Figure提出了Helix 02,也包含了一层System 0,所以2026年会是“System 0元年”吗?
张凯峰:我们自己并没有去刻意这么定义。不过我们内部之前聊过,大家确实有一个共识:2026年全行业的关注点,肯定会全面聚焦到“灵巧操作”上。大家可能更关心更细化的灵巧操作。这个趋势确实存在,至于是不是“元年”,就看各自的解读了。
甲子光年:那为什么现在才做出System 0呢?是因为具备哪些条件吗?
张凯峰:我觉得是整个AI的基础设施以及底层的硬件发展到了能支撑我们做这件事的阶段。
其实算法和模型非常依赖Infra的设计。比如现在有了英伟达Isaac这样优秀的平台,它的渲染效率非常高,特别是触觉的渲染效率。结合我们Tacmap这样的技术,就能去做很多触觉的sim-to-real工作,从而解决灵巧操作底层System 0面临的问题。
所以是整个Infra和仿真的进步,让我们有机会把这件事做好。
4.与英伟达合力解决Sim-to-Real问题
甲子光年:你们和英伟达有哪些合作?通过合作你们想传递什么信息?
Alicia:主要是Tacmap仿真触觉传感系统和EgoScale项目。Sharpa Wave灵巧手已被NVIDIA GEAR实验室用于数据驱动的机器人学习研究。双方合作验证了一条关键路径:机器人可以直接从大规模人类视频数据中学习复杂操作能力,并在真实系统中稳定执行。另外,我们还加入了NVIDIA Inception创业加速计划。
仿真技术是我们着重投入的方向。它是加速机器人训练的一个极具前景的方向。能在仿真领域跟英伟达这样的巨头合作,对推动触觉和触觉AI的发展十分关键,也能让大家看到其对于机器人训练和数据瓶颈突破的重要性。
甲子光年:你们宣布这次Tacmap仿真框架及代码资产未来将开源,开源的时间节点和范围是什么?你们为什么会选择开源?
Alicia:关于相关成果的开源发布时间,团队给我的预期大概在三月底吧。
这次开源的内容大概包括URDF(机器人模型)、仿真资产、Tacmap的代码,还有强化学习(RL)的代码库。打个比方,你可以把Tacmap看作是英伟达Isaac Lab平台上的一个插件,大家以后都能用。
如果我们真想把“触觉AI是机器人下一个大风口”这个共识推出去,光靠嘴说没用,得给大家提供上手的工具。大家亲自跑一跑代码,自然就懂它的价值了。
这个领域要想发展,单靠一家公司肯定不行。把工具开源,一方面确实能帮英伟达的Isaac Lab平台吸引更多生态用户,但对Sharpa来说,真正的“私心”是希望吸引更多人来研究触觉AI。
甲子光年:在Tacmap仿真框架的合作中,Sharpa与英伟达各自都做了什么工作?
张凯峰:Sharpa和英伟达共同设计了TacMap,解决如何对视触觉进行仿真的技术问题。英伟达主要提供底层技术支持,比如物理引擎上的Know-how,同时帮我们解决了IsaacLab底层的一些Bug。
一个新的平台本身会有不完善的地方,英伟达协助排查后,双方再能进行深度的联合开发,最终由Sharpa主导实现并验证。
Alicia:我们正在合作解决sim-to-real(仿真到现实)的差距,让仿真平台能更好地生成合成数据来训练模型。有时我们也会根据具体任务,直接在仿真环境里用强化学习来训练。
甲子光年:算力方面会有合作吗?
张凯峰:算力方面暂时没有,主要聚焦在仿真。
甲子光年:传统触觉仿真一直存在一个问题:真实性vs计算效率。这次合作解决了什么关键问题?
张凯峰:传统触觉仿真的痛点要么像是:有限元分析那样保留了物理特性但失去计算效率,要么像简化的投影映射有计算效率但物理特性很差。我们这次取得了很好的折中。
基于Tacmap,我们设计了一套物体和指尖穿模得到的深度图像,把这个图像作为sim-to-real的介质。在仿真里可以快速高效地计算deformation Map(形变图);而在真实世界中,我们采集大量数据,把视触觉看到的原始图像通过转换模型翻译成deformation Map。
在此基础上我们既保留了很好的物理特性,又有极高的计算效率,同时sim-to-real的gap也非常小。基于我们的测试分析,Tacmap能够支持in-hand manipulation的zero-shot deploy。
甲子光年:接下来聊聊EgoScale项目,我注意到NVIDIA GEAR Lab的研究团队成功把在GR00T模型进行了20000小时以上人类视频数据预训练获得的策略,迁移到搭载Sharpa Wave机械手的机器人上。实验结果显示,这些机器人能够完成包括模型汽车组装、注射器操作以及卡片分类等任务,整体任务成功率提升54%。这个数据提升代表着什么?
张凯峰:过去大家有个共识,希望能用好不同质量的数据。
最高质量的是遥操作数据,但它很难规模化、成本太高;其次是以人为中心的数据采集方式;最底层的、最便宜且最能规模化的就是人类视频,或者带有真实标注的动捕数据。
这次英伟达的工作让我们看到,人类视频数据从某种意义上带来了scaling Law,同时也证实了在硬件侧设计与人类1:1同构灵巧手的重要性。

《EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data》论文,图片来源:受访者
甲子光年:当前具身智能行业获取数据,主要有四种方式。第一种是仿真数据,第二类是人类行为数据,第三类是人类示教数据,第四类是真机遥操作数据。这四种方式各有优劣势,其中人类行为数据来源主要是视频,通过学习人类操作来训练机器人。这类数据规模巨大,但由于人类身体结构与机器人机械结构存在差异,往往难以直接映射到机器人动作,因此存在所谓的“构型鸿沟”。你们如何避免人类行为数据带来的“构型鸿沟”?
张凯峰:这其实耦合了两个问题,核心是retargeting(重定向)。真正理想的重定向叫functional retargeting(功能性重定向),意思是不仅空间上的关键点能映射到机械手上,更要求操作语义也能够重定向。比如我做捏(pinch)或抓握(power grasp)的动作,机器人也能准确还原这个操作的语义,也就是“指哪打哪”。
即便解决了重定向,还要保证重定向的结果是physical plausible(物理可达的),这就要求硬件设计必须和人手1:1同构。
我们某种意义上解决了底层硬件的瓶颈,保证了重定向结果物理可达。而functional retargeting目前仍是一个不断探索的难题。
甲子光年:你是否认为“机器人训练正在从‘机器人数据时代’,进入‘人类视频数据时代’”?只要机器人拥有足够类人的手部结构,人类数十亿小时的操作视频,都可能成为机器人的训练数据吗?
张凯峰:是的,我们正在经历这个转变。所谓的机器人数据,指的是通过遥操作或机器人主动采集的数据;而人类操作数据,则是人戴着DexUMI或者DexOP这种数据手套,或者通过动捕(MoCap)技术获取的人类实操数据。当然,机器人数据最终也是必不可少的。
要想用好这些人类操作的数据,最大的难点还是刚才提到的retargeting重定向。重定向不仅要求结果在物理上可达,这就要求有1:1同构的优质硬件,还要求在功能语义上一致(functional),这本身在模型算法上就是一个巨大的挑战。
甲子光年:所以未来机器人训练到底会更依赖哪类数据?
张凯峰:要想打造通用的智能机器人,整个数据金字塔的每一层都必须被充分利用。整体来看,高质量的遥操作数据与以人为中心(Human-centric)采集的数据,比例大概是1:100,这是一个比较合理的比例。接着往下推,以人为中心的数据与仿真数据的比例也是1:100;最后仿真数据与海量的人类操作视频数据同样是1:100的百倍级增长。只有这样层层放大,才能解决数据的困境,最终才能训练出好的通用智能。
5.Sharpa的飞轮效应
甲子光年:Sharpa把全球总部设在新加坡,研发和制造在上海,商业运营在硅谷。这种全球化布局背后的策略是什么?
Alicia:我们的策略很简单:去最合适的地方拿最好的资源。所以我们从一开始就是一家global by design(生而全球化)的公司。
参考汽车或消费电子等成熟产业,无论是客户群还是供应链,本来就是全球化的。新加坡是亚洲的枢纽,方便吸引全球AI人才,设为总部很合理。中国有极好的AI和机器人人才库,而且供应链极其发达,硬件组件的组装和迭代速度极快,这是我们绝对不能错过的优势。至于美国,那里对新技术的接受和应用速度几乎比世界上任何地方都快,所以我们在这里开展商业运营顺理成章。

Sharpa硅谷办公室展示区,North机器人在发牌,动图来源:「甲子光年」拍摄
甲子光年:但现实中机器人商业化仍然很慢。你认为机器人规模化落地的瓶颈是什么?
Alicia:大规模部署之所以还没发生,是因为目前发布的绝大多数机器人都在死磕移动能力,而在操作能力上投入的精力太少。
只有当机器人真正能用手干活时,它们才会变得有用,部署速度才会加快。这也是我们创立这家公司的初衷。
往深了说,这终究是一个数据问题。我们需要更多物理世界的数据来训练机器人。
凯峰团队正在努力让更多触觉数据能用于训练机器人和CraftNet。这其实是一个飞轮效应(flywheel):拥有带有触觉的优质灵巧手,我们就能生成更好的数据;有了更好的数据,就能训练出更好的模型;模型越好,机器人就越有用,能胜任的场景就越多;场景打开了,客户买单的意愿就越强,企业就有更多资金投入研发,从而造出更好的机器人。这就是大规模落地的底层逻辑。
甲子光年:从市场角度看,中美有什么差异?
Alicia:差异主要体现在供给侧。中国的供应链速度实在太快了,只要市场有一点风吹草动,哪怕离真正爆发还有段距离,无数人就会立刻涌入并快速开发方案,整个生态系统的调动速度极其惊人。
中美两国对新技术的接受度都很高,但感觉美国市场在真正大规模建立供应链之前,需要更多的“被说服”过程。而在中国,配合供应商、快速修正设计都极其高效。凯峰,你同意吗?
张凯峰:完全同意。
甲子光年:在美国,市场教育成本高吗?
Alicia:美国的科技圈,一切都发生得极快,科技从业者对新技术的接受度极高,所以你很容易就能积攒起一大批“早期采用者(Early adopters)”。
但在美国市场,真正的难题在于如何“跨越鸿沟(Cross the chasm)”,即如何从早期采用者打入主流大众市场。对于主流客户,你必须证明非常多的东西,他们才会买单。
但在中国,我感觉大家对待新事物的态度不太一样。在中国,大家普遍认为“犯错的成本,远低于错失机会的成本”。在其他地方(比如欧洲),人们非常害怕犯错;但在中国,大家极其FOMO(Fear of Missing Out,错失恐惧症),害怕别人看到了机会而自己没上车。所以在这种情绪下,哪怕技术还没那么成熟,大家也会去试、去摸索。
甲子光年:如果未来机器人像智能手机一样普及,你认为最关键的一次技术突破会来自哪里?
张凯峰:最关键的突破一定来自于“数据侧的闭环”。如果我们能在某个真实的商业模式下,自动地、大规模地采集场景数据,并真正跑通“数据→模型→评测”的闭环,机器人就能像智能手机一样普及。数据实在太关键了。
甲子光年:相比于行业里开源数据,你们自己其实掌握着大量极高质量的、适配你们硬件的“真机触觉数据”。这批数据你们未来考虑开源吗?
张凯峰:开源的事我们正在筹划中,目前还没有最终定论。
甲子光年:今年大家对“具身数据”的关注度空前高涨,你们如何解决数据问题?今年在其他方面有什么规划吗?
张凯峰:我们确实有一些布局,基本上围绕“数据、模型、评测”这三个环节展开。我们主要攻坚自研的CraftNet,但我们也会以高校合作为手段来拓宽认知。
在数据方面,我们正在尝试如何改进以人为中心(human-centric)的数据采集方式,同时也在攻克functional retargeting的难题,试图把海量的动捕(MoCap)数据真正用起来。
在模型方面,针对System 0,我们希望能跑通一个更加通用的Sim-to-Real(仿真到现实)的技能Pipeline。
因为目前不同的操作技能,底层的方法论是不一样的,我们想用一套通用的框架去解决它,目前也在推进用无监督强化学习(RL)来做整个System 0的方向。针对System 1,我们主要关注泛化性和鲁棒性。
在评测方面,我们也在和学界合作,希望能解决目前评测中可靠性差(reliability)和极度耗费人力(labor-intensive)的痛点。
甲子光年:这也很符合你们全栈布局的策略。
Alicia:我们是一家全栈的具身智能公司。之所以要做全栈,是因为要想真正做到通用机器人,除了做好触觉AI,别无选择。
(封面图来源:「甲子光年」拍摄)
END.



