今年,具身领域正面临一个新的转折点,规模化落地和性能提升迫在眉睫。
本体层面上,国内外许多本体公司已经在稳定性和运控上取得了里程碑的成就。
模型性能上,随着数据从数百小时扩充到了百万级的规模,VLA的天花板也在不断拉升。
以前看到的高难度demo背后总有一个操作员,但现在机器人已经可以自己干了。
然而,如果让机器人进入生产线,面对拧螺丝、插网线、对孔插入等需要极高精度的“最后一厘米”任务时,表现却往往会大打折扣。
究其原因,是缺乏高质量规模化的数据。而这,也是这个转折点的需求。
全球范围下的竞争早已超越了“谁的Demo更好看”,而是转向了更深层次的较量:谁能实现更快的学习迭代?谁能将“最后一厘米”的精密操作规模化复制并成功落地?

国外physical intelligence和figure ai正在不断接近落地,国内也有不少玩家开始布局场景。
这个竞争的核心,就是数据。

01.
不是模型不行,
具身是“没饭吃”
无论是VLA还是WAM、世界模型。
模仿学习的发展经验告诉我们,模型结构和部署从来不是瓶颈。每当想要大规模落地时,总被各类case困扰。
要突破这个困境,必须要有足够多的高质量数据支撑,模型只有吃饱了,才能更好工作。
如果要类比的话,自动驾驶则是一个很好的参考。2022年BEV结构推出后,随着数据规模的攀升,不到2年时间,感知效果已经可以做到稳定上路。
而具身,也正在这个关键节点。
收拾床单时如何像人一样处理褶皱?杯子里的水撒下的瞬间,如何发力补救?想要煎鸡蛋应该怎么握持?机器人如何像人一样丝滑的放东西和重物?
依赖纯视觉的各类方案在验证模型结构的阶段,是合理的。然而,对产品落地的“最后一公里”来说,更需要真实人类行为的数据。
换句话说,需要完整的片段学习,需要触觉、视觉、语言的加持,数据要能反馈出物理世界下的人类认知。
02.
具身数据的获取,
依然没有平权
过去一整年,我们见证了全国各地多个数采中心的落地,甚至还有一些公司把数据采集放到了国外。
然而,数据的生产,依然没有平权。
封闭的实验室动辄上千万,成本高,而且不够开放,场景固化,融入不到真实生活。
规模化的作业团队,许多公司不得不为此支付昂贵的人工成本,这也让很多研究团队望而却步。
不仅仅如此,在数据的后端,还要配置一整套处理系统来确保模态对齐和数据质量,这要求有一定的研发人员维护。
重交付的方式,只有少数头部团队可以自产,很多具身公司不得不“外包”。而行业亟需一套能够快速放大数据规模的生产系统。
03.
Egocentric 正在成为首选
今年2月份,英伟达陆续推出了Egoscale和Dreamzero,以人为中心的方案再次走到了行业的聚光灯下。
不仅仅是成本低,数据获取的方式更从人类的视角出发,不仅有视觉,最缺的触觉信息也增加了。

你可以随时随地为机器人展示“人类是怎么处理复杂任务的”,“每一个细节应该是怎么样的”,“应该用多少力”,而不是单单去模仿动作。
更重要的是,以人为中心的方案正在解耦本体。
之前,每换一个型号的机器人,都要重新采集。Egocentric的出现,把这个痛点解决了。
机器人数据不再“绑定”特定本体——即使更换不同构型的人形机器人,采集的数据也能快速适配,实现“数据独立于硬件”。
这意味着,一套高质量数据,可以驱动多类机器人,研发成本大幅降低,效率呈指数级提升。
第一视角数据的崛起,也是走向通用具身的必然:行业已经从过去的单纯学习“规划路径”,转向构建“物理世界下的人类认知能力提升”。
机器人不再只是机械地模仿动作,而是开始理解人类与世界的交互逻辑——比如“为什么要这样拿杯子”、“如何判断物体的重量”。
这也是为什么“第一视角路线”会让整个行业为之兴奋。它把数据采集的重心,从“机器人如何运动”的技术细节,回归到“人类如何与世界交互”的这个本质问题上。
04.
正在终结数采的“特权”时代
相比于昂贵的实验室搭建与遥操,动辄几万的便携式夹爪,Egocentric则开启了数采的平权时代。
一方面,成本低;另外一方面,专业性要求也低。
不少公司因为数据的采集问题,导致研发周期延长,错失了最佳产品上市机会。究其原因,成本高,不好用。以人为中心的数采设备,可以随穿随采,不需要单独消耗人力成本。工厂里的工人,酒店里的服务员,每一个工作过程中的动作都是标准演示。
更方便的是,还不需要专业的培训和技术前置条件。
采集视频,只需要戴一个帽子,眼睛看向哪里就采集哪里,不需要专业的相机和视角调节(费时费力),普通人也能搞定。缺乏触觉,Egocentric只需要穿戴一双手套,无需很笨重或者昂贵的触觉设备。
人类于机器人的价值,正在被放大。
近日,广州里工实业,在广交会舞台上,带来了一款名为ChiroSync 如意数采套件的穿戴式设备。
这款套件给出的答案正是:“充分复制各种人类生产经验,让机器人学习到真正的物理世界动作,让每一个具身团队都能拥有平等的场景与数据”。

从产业的角度来看,ChiroSync 如意数采套件最有价值的地方是重构了数据采集的底层逻辑:“告别百万级封闭实验室,把全球变成你的训练场”。
过去整个行业的数采模式,都是 “中心化实验室” 的重资产模式,只有大厂能玩得起,中小团队根本碰不到;
里工希望能够为这个模式带来改变,变成了分布式的普惠模式:任何一个真实的工作场景,都能变成数采实验室,任何一个从业者,都能用得起高精度的数采工具。
换句话说,数采正从单点作业升级到全场景的分布式作业。正如常说“只要心中有海,哪里都是马尔代夫”,里工希望未来“心中想采集数据,哪里都是数采场”。

不仅有高速相机的头盔、麦克风,ChiroSync的单只手套更是只有42g。
看到的,摸到的,听到的都能记录,随时随地说采就采。
厨师可以边炒菜,边记录那美味的手法;保洁员,更是可以把多年叠衣服和被单的经验保存;而工人,则能展示各种操作的细节和力度。
即使是国外星级的餐厅服务员,也可以为机器人展示如何优雅的托盘和收拾餐桌!
一旦面临危险的场景,人类不适合亲自操作时,“真人+真机”的双驱动方案还可以立刻激活。

ChiroSync所实现的“视觉、五指触觉、关节角度、听觉”等维度构成的多模态数据的数据集,能充分收集到的,不仅仅是抽象意义上的“任何数据”,更多是在真实应用场景、一线生产岗位之中流动稀缺细节数据。
让模型感知准确率、决策合理性、执行稳定性大幅提升,实现机器人适配复杂非结构化场景能力更强。
之前复杂的数据处理也只需要一套“背包”搞定。
一边采集,一边处理,触觉、视觉等多模态信息可以实时对齐,不用担心错位问题,每一个有价值的操作都能被轻松记录。

ChiroSync如意数采套件传达的,更有从单点硬件到端到端系统的升级,把复杂的问题简单化。
不同于市场的其他同类产品,动辄20w+的成本,ChiroSync 如意数采套件只需要不到6w元,却能赋予了行业指数级增长的采集规模,成本直降90%以上。
而这,也标志着具身的研发与迭代,正在从少数头部企业手上“下发”到各个团队。
数据平权的时代,创新和落地的成本正在变得更低。但作为终局之战的军火,“数据”正在越来越丰富。
05.
把人类的能力复制放大,
具身的终局才会更快
相比于之前的结构和可行性验证,当下具身领域更需要的是高质量且规模化的case。
无论是真机遥操,还是仿真、UMI方案,其实都在做一件事:“把人类的能力复制放大,把case完整化”。
第一视角像是打开了链接人类世界与机器人学习的枷锁,这个范式下更能通过技术手段传承、规模化物理AI数据,提升机器人的通用性。
而ChiroSync如意数采套件这类Egocentric采集方案正是这一载体,设计的初衷就是帮具身领域解决 “数据燃料匮乏” 的痛点,这个点本身就有极强的情感共鸣。
不管是工厂的老匠人,还是实验室的研究员,甚至是艺术家、手艺人,他们背后的“经验”一旦无法有效复制到具身机器人身上,将会是机器人走进“千厂万家的重要难题”。
当喂给机器人的饭不仅“有营养”,而且“多元化”后,具身的终局一定会加速到来。