不是VLA或者WAM，具身的终极目标是把人类的能力复制放大.......

今年，具身领域正面临一个新的转折点，规模化落地和性能提升迫在眉睫。

本体层面上，国内外许多本体公司已经在稳定性和运控上取得了里程碑的成就。

模型性能上，随着数据从数百小时扩充到了百万级的规模，VLA的天花板也在不断拉升。

以前看到的高难度demo背后总有一个操作员，但现在机器人已经可以自己干了。

然而，如果让机器人进入生产线，面对拧螺丝、插网线、对孔插入等需要极高精度的“最后一厘米”任务时，表现却往往会大打折扣。

究其原因，是缺乏高质量规模化的数据。而这，也是这个转折点的需求。

全球范围下的竞争早已超越了“谁的Demo更好看”，而是转向了更深层次的较量：谁能实现更快的学习迭代？谁能将“最后一厘米”的精密操作规模化复制并成功落地？

国外physical intelligence和figure ai正在不断接近落地，国内也有不少玩家开始布局场景。

这个竞争的核心，就是数据。

01.

不是模型不行，

具身是“没饭吃”

无论是VLA还是WAM、世界模型。

模仿学习的发展经验告诉我们，模型结构和部署从来不是瓶颈。每当想要大规模落地时，总被各类case困扰。

要突破这个困境，必须要有足够多的高质量数据支撑，模型只有吃饱了，才能更好工作。

如果要类比的话，自动驾驶则是一个很好的参考。2022年BEV结构推出后，随着数据规模的攀升，不到2年时间，感知效果已经可以做到稳定上路。

而具身，也正在这个关键节点。

收拾床单时如何像人一样处理褶皱？杯子里的水撒下的瞬间，如何发力补救？想要煎鸡蛋应该怎么握持？机器人如何像人一样丝滑的放东西和重物？

依赖纯视觉的各类方案在验证模型结构的阶段，是合理的。然而，对产品落地的“最后一公里”来说，更需要真实人类行为的数据。

换句话说，需要完整的片段学习，需要触觉、视觉、语言的加持，数据要能反馈出物理世界下的人类认知。

02.

具身数据的获取，

依然没有平权

过去一整年，我们见证了全国各地多个数采中心的落地，甚至还有一些公司把数据采集放到了国外。

然而，数据的生产，依然没有平权。

封闭的实验室动辄上千万，成本高，而且不够开放，场景固化，融入不到真实生活。

规模化的作业团队，许多公司不得不为此支付昂贵的人工成本，这也让很多研究团队望而却步。

不仅仅如此，在数据的后端，还要配置一整套处理系统来确保模态对齐和数据质量，这要求有一定的研发人员维护。

重交付的方式，只有少数头部团队可以自产，很多具身公司不得不“外包”。而行业亟需一套能够快速放大数据规模的生产系统。

03.

Egocentric 正在成为首选

今年2月份，英伟达陆续推出了Egoscale和Dreamzero，以人为中心的方案再次走到了行业的聚光灯下。

不仅仅是成本低，数据获取的方式更从人类的视角出发，不仅有视觉，最缺的触觉信息也增加了。

你可以随时随地为机器人展示“人类是怎么处理复杂任务的”，“每一个细节应该是怎么样的”，“应该用多少力”，而不是单单去模仿动作。

更重要的是，以人为中心的方案正在解耦本体。

之前，每换一个型号的机器人，都要重新采集。Egocentric的出现，把这个痛点解决了。

机器人数据不再“绑定”特定本体——即使更换不同构型的人形机器人，采集的数据也能快速适配，实现“数据独立于硬件”。

这意味着，一套高质量数据，可以驱动多类机器人，研发成本大幅降低，效率呈指数级提升。

第一视角数据的崛起，也是走向通用具身的必然：行业已经从过去的单纯学习“规划路径”，转向构建“物理世界下的人类认知能力提升”。

机器人不再只是机械地模仿动作，而是开始理解人类与世界的交互逻辑——比如“为什么要这样拿杯子”、“如何判断物体的重量”。

这也是为什么“第一视角路线”会让整个行业为之兴奋。它把数据采集的重心，从“机器人如何运动”的技术细节，回归到“人类如何与世界交互”的这个本质问题上。

04.

正在终结数采的“特权”时代

相比于昂贵的实验室搭建与遥操，动辄几万的便携式夹爪，Egocentric则开启了数采的平权时代。

一方面，成本低；另外一方面，专业性要求也低。

不少公司因为数据的采集问题，导致研发周期延长，错失了最佳产品上市机会。究其原因，成本高，不好用。以人为中心的数采设备，可以随穿随采，不需要单独消耗人力成本。工厂里的工人，酒店里的服务员，每一个工作过程中的动作都是标准演示。

更方便的是，还不需要专业的培训和技术前置条件。

采集视频，只需要戴一个帽子，眼睛看向哪里就采集哪里，不需要专业的相机和视角调节（费时费力），普通人也能搞定。缺乏触觉，Egocentric只需要穿戴一双手套，无需很笨重或者昂贵的触觉设备。

人类于机器人的价值，正在被放大。

近日，广州里工实业，在广交会舞台上，带来了一款名为ChiroSync 如意数采套件的穿戴式设备。

这款套件给出的答案正是：“充分复制各种人类生产经验，让机器人学习到真正的物理世界动作，让每一个具身团队都能拥有平等的场景与数据”。

从产业的角度来看，ChiroSync 如意数采套件最有价值的地方是重构了数据采集的底层逻辑：“告别百万级封闭实验室，把全球变成你的训练场”。

过去整个行业的数采模式，都是 “中心化实验室” 的重资产模式，只有大厂能玩得起，中小团队根本碰不到；

里工希望能够为这个模式带来改变，变成了分布式的普惠模式：任何一个真实的工作场景，都能变成数采实验室，任何一个从业者，都能用得起高精度的数采工具。

换句话说，数采正从单点作业升级到全场景的分布式作业。正如常说“只要心中有海，哪里都是马尔代夫”，里工希望未来“心中想采集数据，哪里都是数采场”。

不仅有高速相机的头盔、麦克风，ChiroSync的单只手套更是只有42g。

看到的，摸到的，听到的都能记录，随时随地说采就采。

厨师可以边炒菜，边记录那美味的手法；保洁员，更是可以把多年叠衣服和被单的经验保存；而工人，则能展示各种操作的细节和力度。

即使是国外星级的餐厅服务员，也可以为机器人展示如何优雅的托盘和收拾餐桌！

一旦面临危险的场景，人类不适合亲自操作时，“真人+真机”的双驱动方案还可以立刻激活。

ChiroSync所实现的“视觉、五指触觉、关节角度、听觉”等维度构成的多模态数据的数据集，能充分收集到的，不仅仅是抽象意义上的“任何数据”，更多是在真实应用场景、一线生产岗位之中流动稀缺细节数据。

让模型感知准确率、决策合理性、执行稳定性大幅提升，实现机器人适配复杂非结构化场景能力更强。

之前复杂的数据处理也只需要一套“背包”搞定。

一边采集，一边处理，触觉、视觉等多模态信息可以实时对齐，不用担心错位问题，每一个有价值的操作都能被轻松记录。

ChiroSync如意数采套件传达的，更有从单点硬件到端到端系统的升级，把复杂的问题简单化。

不同于市场的其他同类产品，动辄20w+的成本，ChiroSync 如意数采套件只需要不到6w元，却能赋予了行业指数级增长的采集规模，成本直降90%以上。

而这，也标志着具身的研发与迭代，正在从少数头部企业手上“下发”到各个团队。

数据平权的时代，创新和落地的成本正在变得更低。但作为终局之战的军火，“数据”正在越来越丰富。

05.

把人类的能力复制放大，

具身的终局才会更快

相比于之前的结构和可行性验证，当下具身领域更需要的是高质量且规模化的case。

无论是真机遥操，还是仿真、UMI方案，其实都在做一件事：“把人类的能力复制放大，把case完整化”。

第一视角像是打开了链接人类世界与机器人学习的枷锁，这个范式下更能通过技术手段传承、规模化物理AI数据，提升机器人的通用性。

而ChiroSync如意数采套件这类Egocentric采集方案正是这一载体，设计的初衷就是帮具身领域解决 “数据燃料匮乏” 的痛点，这个点本身就有极强的情感共鸣。

不管是工厂的老匠人，还是实验室的研究员，甚至是艺术家、手艺人，他们背后的“经验”一旦无法有效复制到具身机器人身上，将会是机器人走进“千厂万家的重要难题”。

当喂给机器人的饭不仅“有营养”，而且“多元化”后，具身的终局一定会加速到来。

END