先抛一个问题:大家认为,机器人行业距离自己的 GPT-3 Moment 还有多远?
是这样,最近有时间我们学习了下 WhynotTV 第五期的访谈,何泰然专访佐治亚理工助理教授、NVIDIA AI 研究员徐丹飞。
徐丹飞说:机器人要迎来类似 GPT-3 的能力跃迁,可能需要 1 亿小时的高质量人类数据。
嗯,一亿小时,这个量级本身已经足够重要。
它把具身智能当前最核心的矛盾推到了台前:机器人真正缺的,可能不只是更大的 VLA、更强的世界模型,或者更灵巧的人形本体,而是一套足以支撑模型涌现的物理世界数据基础设施。
今天,具身智能之心就和大家讨论下这个内容,human data,人类数据。

一亿小时背后,其实卡在机器人没有自己的互联网
把「一亿小时」放到行业里看,它指向的只有一个核心问题:机器人还没有形成自己的互联网数据层。
和大模型的打法不一样,语言模型可以从网页、书籍、代码仓库和论坛中学习人类知识。
视觉模型可以从互联网图像和视频中学习世界表征。但机器人要学习的是动作,是接触,是力,是身体如何在三维空间中与物体发生关系。
但这些信息你很难从文本中获得,也很难完全依赖第三人称视频得到。
一个人拿杯子的动作,看起来只是手伸出去、握住、抬起。但放到机器人系统中看,里面包含手眼协调、接触判断、抓取姿态、物体稳定性、失败恢复,以及大量人类在长期生活中形成的隐性物理常识。
这就是之前 Generalist 所说的「机器人学习暗物质」。

这类数据过去并没有以机器人可学习的方式存在。
行业此前更熟悉的路径,是让机器人自己采数据。通过遥操作、VR、主从臂。让人控制机器人完成任务,再用这些数据训练策略。这条路线有效,也已经支撑了 ALOHA、UMI 以及一批端到端操作模型的进展。
但问题同样明显:机器人数据昂贵、慢、难规模化,而且高度绑定具体本体。
同一套任务,换一个夹爪、换一个机械臂、换一个控制器,数据分布都会发生变化。对于真正想训练通用机器人模型的团队来说,仅靠机器人本体自己采集数据,很难接近互联网级规模。
Human Data 路线的价值,就在这里开始显现。
它提出了一个更大的问题:机器人学习一定要从机器人自己产生的数据开始吗?
如果把人类身体看成一种天然存在、规模庞大、传感器丰富、长期运行在真实世界中的「具身系统」,那么人类日常动作本身就是一种极其稀缺的物理世界数据。它覆盖真实家庭、办公室、厨房、街道、仓储、商店等长尾环境,也天然包含顺手动作、失败修正、物体交互和场景变化。
从这个角度看,human data 可能不是遥操数据的低成本替代品。更底层的逻辑是:具身智能走向大规模预训练之前,最接近「机器人互联网」的数据来源。
行为克隆回来了,但难点不在模型本身
这期访谈中,还有一个值得聊的店,是徐丹飞对 Behavior Cloning 的重新理解。
在很长一段时间里,BC 在机器人学习领域并不算性感。它容易被批评为误差累积、泛化不足、缺乏探索。相比之下,强化学习、规划、任务运动规划,长期显得更接近机器人学的经典正统。
但过去两年,行业重新看到了 BC 的价值。
原因大体如下。对于大量真实操作任务来说,只要数据质量足够高、系统链路足够稳定,模仿学习仍然是最直接、最有效的路径之一。
机器人不一定要从零探索如何开抽屉、拿杯子、叠毛巾。人类已经在真实世界中完成了无数次类似动作,关键在于能否把这些示范转化成模型可以吸收的训练信号。
但,真正的难点在系统。
做具身的小伙伴最清楚,BC 最难的地方往往不是模型,而是数据采集、相机布置、控制器延迟、系统链路和评测方式。
这一点放到具身智能产业里非常关键。
当下很多讨论容易把 robot learning 简化成模型竞争。但在真实机器人系统里,模型只是链条中的一个环节。相机位置、时钟同步、控制频率、夹爪响应、机械臂刚度、低层控制器、数据清洗、任务定义和成功率评估,都会影响最终策略表现。
BC 的重新回归,表面上看是模仿学习范式重新受到关注,更深层的变化指向 robot learning 从 algorithm-centric 进入 system-centric。
也就是说,具身智能下一阶段的核心能力,不会只体现在模型结构上,还会体现在一家公司能否持续组织高质量数据、稳定训练策略、真实部署评测,并把失败样本重新纳入训练循环。
这套系统能力,才是机器人公司真正难以复制的壁垒。
第一人称视频,也只是当下的折中方案
访谈中,徐丹飞也谈到了对ego数据的看法。
human data 不是单一的概念。
第三人称视频、第一人称视频、手部轨迹、全身动作、触觉数据、语音指令、任务标注,价值完全不同。对机器人学习来说,真正困难的是在规模和保真度之间找到平衡。
第三人称互联网视频规模最大,但距离机器人执行最远。相机视角不一致,手部经常被遮挡,动作细节缺失,也很难还原力和接触状态。
全身动捕或高精度多模态采集保真度更高,但成本高,场景受限,很难快速扩展到一亿小时这样的量级。

从这个角度出发,第一人称数据也成为了当前很现实的折中方案。
它的视角更接近机器人自身观测,也更容易捕捉手、物体和环境之间的交互关系。如果进一步叠加手部追踪、头部位姿、SLAM、语义标注和任务结构,第一人称视频就不再只是普通视频,而是一种面向机器人学习的数据。
但现有的数据规模,离一亿小时的距离仍然非常非常遥远。
但好在,国内外的头部公司都注意到了这个事情,数采设备和人力都在同步推进。
但如果仔细分析下来,Human data 的 Scaling 可能还是要靠第三人称视频才能堆起来,未来应该会有工作在这方面尝试。
真正的竞争,会从模型扩大到数据基础设施
一亿小时的缺口,把具身智能的数据缺口讲得足够直观。
但更深层的问题,是谁有能力真正组织这些数据。
如果目标只是几百小时、几千小时,学术实验室、创业团队和开源社区都可以参与。但如果目标上升到千万小时甚至一亿小时,竞争格局会发生翻天腹地的变化,参考自动驾驶行业,你就会发现事情比想象中要复杂很多。
大胆设想一下,智能眼镜、XR 设备、手机、可穿戴设备、家庭机器人、商用机器人,都可能成为未来 human data 的采集入口。
human data 的竞争会连接到更多产业变量:硬件入口、用户网络、隐私合规、数据标注、算力平台、机器人本体、仿真评测和模型训练。
机器人公司的能力边界也会被重新定义。
过去一家机器人公司可以围绕本体、控制和场景交付建立竞争力。
到了 foundation model 阶段,只有机器人本体已经不够。
公司还需要回答:能不能持续拿到高质量数据,能不能把人类数据和机器人数据对齐,能不能从数据中筛出真正有用的片段,能不能跨本体迁移,能不能用评测体系验证能力增长。
这也是我们觉得徐丹飞这期访谈,非常值得和大家分享的地方。
它表面上在讨论 human data、BC、EgoMimic 和 UMI,实际上指向的是具身智能下一阶段的底层分工:模型仍然重要,但数据基础设施会越来越重要。

写在最后
机器人是否真的需要一亿小时数据,今天还很难给出确定答案。
但这句话背后可以折射出一个提醒:如果具身智能希望复制大模型时代的能力跃迁,就必须面对数据规模、数据质量和数据组织方式这三个问题。
过去几年,行业已经证明了真机数据的价值,也证明了遥操作路线的有效性。
但这条路径成本高、扩展慢、强依赖本体,很难单独支撑通用机器人模型走向下一阶段。
human data 路线提供了另一种可能。从人类在真实世界中的动作痕迹里,提取机器人可以使用的物理先验,再通过跨域对齐、机器人数据共训和真实评测,把这些先验转化成可执行能力。
它不会完全替代其他数据,但方向已经非常明确。
也再次和大家强调一下,未来是系统层面的比拼,数据只是这套能力冰上上的一角。