不是VLA或者WAM,具身的终极目标是把人类的能力复制放大.......

具身智能之心 2026-04-21 09:00

今年,具身领域正面临一个新的转折点,规模化落地和性能提升迫在眉睫。

本体层面上,国内外许多本体公司已经在稳定性和运控上取得了里程碑的成就。

模型性能上,随着数据从数百小时扩充到了百万级的规模,VLA的天花板也在不断拉升。

以前看到的高难度demo背后总有一个操作员,但现在机器人已经可以自己干了。

然而,如果让机器人进入生产线,面对拧螺丝、插网线、对孔插入等需要极高精度的“最后一厘米”任务时,表现却往往会大打折扣。

究其原因,是缺乏高质量规模化的数据。而这,也是这个转折点的需求。

全球范围下的竞争早已超越了“谁的Demo更好看”,而是转向了更深层次的较量:谁能实现更快的学习迭代?谁能将“最后一厘米”的精密操作规模化复制并成功落地?

不是VLA或者WAM,具身的终极目标是把人类的能力复制放大.......图1

国外physical intelligence和figure ai正在不断接近落地,国内也有不少玩家开始布局场景。

这个竞争的核心,就是数据。

不是VLA或者WAM,具身的终极目标是把人类的能力复制放大.......图2

01.

不是模型不行,

具身是“没饭吃”

无论是VLA还是WAM、世界模型。

模仿学习的发展经验告诉我们,模型结构和部署从来不是瓶颈。每当想要大规模落地时,总被各类case困扰。

要突破这个困境,必须要有足够多的高质量数据支撑,模型只有吃饱了,才能更好工作。

如果要类比的话,自动驾驶则是一个很好的参考。2022年BEV结构推出后,随着数据规模的攀升,不到2年时间,感知效果已经可以做到稳定上路。

而具身,也正在这个关键节点。

收拾床单时如何像人一样处理褶皱?杯子里的水撒下的瞬间,如何发力补救?想要煎鸡蛋应该怎么握持?机器人如何像人一样丝滑的放东西和重物?

依赖纯视觉的各类方案在验证模型结构的阶段,是合理的。然而,对产品落地的“最后一公里”来说,更需要真实人类行为的数据。

换句话说,需要完整的片段学习,需要触觉、视觉、语言的加持,数据要能反馈出物理世界下的人类认知。

02.

具身数据的获取,

依然没有平权

过去一整年,我们见证了全国各地多个数采中心的落地,甚至还有一些公司把数据采集放到了国外。

然而,数据的生产,依然没有平权。

封闭的实验室动辄上千万,成本高,而且不够开放,场景固化,融入不到真实生活。

规模化的作业团队,许多公司不得不为此支付昂贵的人工成本,这也让很多研究团队望而却步。

不仅仅如此,在数据的后端,还要配置一整套处理系统来确保模态对齐和数据质量,这要求有一定的研发人员维护。

重交付的方式,只有少数头部团队可以自产,很多具身公司不得不“外包”。而行业亟需一套能够快速放大数据规模的生产系统。

03.

Egocentric 正在成为首选

今年2月份,英伟达陆续推出了Egoscale和Dreamzero,以人为中心的方案再次走到了行业的聚光灯下。

不仅仅是成本低,数据获取的方式更从人类的视角出发,不仅有视觉,最缺的触觉信息也增加了。

不是VLA或者WAM,具身的终极目标是把人类的能力复制放大.......图3

你可以随时随地为机器人展示“人类是怎么处理复杂任务的”,“每一个细节应该是怎么样的”,“应该用多少力”,而不是单单去模仿动作。

更重要的是,以人为中心的方案正在解耦本体。

之前,每换一个型号的机器人,都要重新采集。Egocentric的出现,把这个痛点解决了。

机器人数据不再“绑定”特定本体——即使更换不同构型的人形机器人,采集的数据也能快速适配,实现“数据独立于硬件”。

这意味着,一套高质量数据,可以驱动多类机器人,研发成本大幅降低,效率呈指数级提升。

第一视角数据的崛起,也是走向通用具身的必然:行业已经从过去的单纯学习“规划路径”,转向构建“物理世界下的人类认知能力提升”。

机器人不再只是机械地模仿动作,而是开始理解人类与世界的交互逻辑——比如“为什么要这样拿杯子”、“如何判断物体的重量”。

这也是为什么“第一视角路线”会让整个行业为之兴奋。它把数据采集的重心,从“机器人如何运动”的技术细节,回归到“人类如何与世界交互”的这个本质问题上。

04.

正在终结数采的“特权”时代

相比于昂贵的实验室搭建与遥操,动辄几万的便携式夹爪,Egocentric则开启了数采的平权时代。

一方面,成本低;另外一方面,专业性要求也低。

不少公司因为数据的采集问题,导致研发周期延长,错失了最佳产品上市机会。究其原因,成本高,不好用。以人为中心的数采设备,可以随穿随采,不需要单独消耗人力成本。工厂里的工人,酒店里的服务员,每一个工作过程中的动作都是标准演示。

更方便的是,还不需要专业的培训和技术前置条件。

采集视频,只需要戴一个帽子,眼睛看向哪里就采集哪里,不需要专业的相机和视角调节(费时费力),普通人也能搞定。缺乏触觉,Egocentric只需要穿戴一双手套,无需很笨重或者昂贵的触觉设备。

人类于机器人的价值,正在被放大。

近日,广州里工实业,在广交会舞台上,带来了一款名为ChiroSync 如意数采套件的穿戴式设备。

这款套件给出的答案正是:“充分复制各种人类生产经验,让机器人学习到真正的物理世界动作,让每一个具身团队都能拥有平等的场景与数据”。

不是VLA或者WAM,具身的终极目标是把人类的能力复制放大.......图4

从产业的角度来看,ChiroSync 如意数采套件最有价值的地方是重构了数据采集的底层逻辑:“告别百万级封闭实验室,把全球变成你的训练场”。

过去整个行业的数采模式,都是 “中心化实验室” 的重资产模式,只有大厂能玩得起,中小团队根本碰不到;

里工希望能够为这个模式带来改变,变成了分布式的普惠模式:任何一个真实的工作场景,都能变成数采实验室,任何一个从业者,都能用得起高精度的数采工具。

换句话说,数采正从单点作业升级到全场景的分布式作业。正如常说“只要心中有海,哪里都是马尔代夫”,里工希望未来“心中想采集数据,哪里都是数采场”。

不是VLA或者WAM,具身的终极目标是把人类的能力复制放大.......图5

不仅有高速相机的头盔、麦克风,ChiroSync的单只手套更是只有42g。

看到的,摸到的,听到的都能记录,随时随地说采就采。

厨师可以边炒菜,边记录那美味的手法;保洁员,更是可以把多年叠衣服和被单的经验保存;而工人,则能展示各种操作的细节和力度。

即使是国外星级的餐厅服务员,也可以为机器人展示如何优雅的托盘和收拾餐桌!

一旦面临危险的场景,人类不适合亲自操作时,“真人+真机”的双驱动方案还可以立刻激活。

不是VLA或者WAM,具身的终极目标是把人类的能力复制放大.......图6

ChiroSync所实现的“视觉、五指触觉、关节角度、听觉”等维度构成的多模态数据的数据集,能充分收集到的,不仅仅是抽象意义上的“任何数据”,更多是在真实应用场景、一线生产岗位之中流动稀缺细节数据。

让模型感知准确率、决策合理性、执行稳定性大幅提升,实现机器人适配复杂非结构化场景能力更强。

之前复杂的数据处理也只需要一套“背包”搞定。

一边采集,一边处理,触觉、视觉等多模态信息可以实时对齐,不用担心错位问题,每一个有价值的操作都能被轻松记录。

不是VLA或者WAM,具身的终极目标是把人类的能力复制放大.......图7

ChiroSync如意数采套件传达的,更有从单点硬件到端到端系统的升级,把复杂的问题简单化。

不同于市场的其他同类产品,动辄20w+的成本,ChiroSync 如意数采套件只需要不到6w元,却能赋予了行业指数级增长的采集规模,成本直降90%以上。

而这,也标志着具身的研发与迭代,正在从少数头部企业手上“下发”到各个团队。

数据平权的时代,创新和落地的成本正在变得更低。但作为终局之战的军火,“数据”正在越来越丰富。

05.

把人类的能力复制放大,

具身的终局才会更快

相比于之前的结构和可行性验证,当下具身领域更需要的是高质量且规模化的case。

无论是真机遥操,还是仿真、UMI方案,其实都在做一件事:“把人类的能力复制放大,把case完整化”。

第一视角像是打开了链接人类世界与机器人学习的枷锁,这个范式下更能通过技术手段传承、规模化物理AI数据,提升机器人的通用性。

而ChiroSync如意数采套件这类Egocentric采集方案正是这一载体,设计的初衷就是帮具身领域解决 “数据燃料匮乏” 的痛点,这个点本身就有极强的情感共鸣。

不管是工厂的老匠人,还是实验室的研究员,甚至是艺术家、手艺人,他们背后的“经验”一旦无法有效复制到具身机器人身上,将会是机器人走进“千厂万家的重要难题”。

当喂给机器人的饭不仅“有营养”,而且“多元化”后,具身的终局一定会加速到来。

 

END

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
小米仿生手进工厂拧螺丝!灵巧手成资本新宠,国产十强浮出水面
雷军全程直播小米SU7京沪续航实测:15小时直面质疑,回应“被逼上阵”
小米不平庸
原特斯拉中国区总经理跳槽小米汽车!
DeepSeek V4发布前,罗福莉亮剑!小米最强大模型MiMo-V2.5深夜突袭
小米自研车规级内核获ISO 26262 ASIL-D认证,夯实智能汽车安全底座
小米汽车3月交付破2万台,SU7成增长主力并迈入盈利新阶段
Nature称中国基础研究投入增长超美国:点名称赞小米、腾讯!
小米18系列全球首发骁龙8E6系列,2nm制程开启安卓性能新纪元
小米汽车迎来关键拐点
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号