徐丹飞，一亿小时人类数据 “可买” 机器人 GPT-3 时刻

先抛一个问题：大家认为，机器人行业距离自己的 GPT-3 Moment 还有多远？

是这样，最近有时间我们学习了下 WhynotTV 第五期的访谈，何泰然专访佐治亚理工助理教授、NVIDIA AI 研究员徐丹飞。

徐丹飞说：机器人要迎来类似 GPT-3 的能力跃迁，可能需要 1 亿小时的高质量人类数据。

嗯，一亿小时，这个量级本身已经足够重要。

它把具身智能当前最核心的矛盾推到了台前：机器人真正缺的，可能不只是更大的 VLA、更强的世界模型，或者更灵巧的人形本体，而是一套足以支撑模型涌现的物理世界数据基础设施。

今天，具身智能之心就和大家讨论下这个内容，human data，人类数据。

unsetunset一亿小时背后，其实卡在机器人没有自己的互联网unsetunset

把「一亿小时」放到行业里看，它指向的只有一个核心问题：机器人还没有形成自己的互联网数据层。

和大模型的打法不一样，语言模型可以从网页、书籍、代码仓库和论坛中学习人类知识。

视觉模型可以从互联网图像和视频中学习世界表征。但机器人要学习的是动作，是接触，是力，是身体如何在三维空间中与物体发生关系。

但这些信息你很难从文本中获得，也很难完全依赖第三人称视频得到。

一个人拿杯子的动作，看起来只是手伸出去、握住、抬起。但放到机器人系统中看，里面包含手眼协调、接触判断、抓取姿态、物体稳定性、失败恢复，以及大量人类在长期生活中形成的隐性物理常识。

这就是之前 Generalist 所说的「机器人学习暗物质」。

这类数据过去并没有以机器人可学习的方式存在。

行业此前更熟悉的路径，是让机器人自己采数据。通过遥操作、VR、主从臂。让人控制机器人完成任务，再用这些数据训练策略。这条路线有效，也已经支撑了 ALOHA、UMI 以及一批端到端操作模型的进展。

但问题同样明显：机器人数据昂贵、慢、难规模化，而且高度绑定具体本体。

同一套任务，换一个夹爪、换一个机械臂、换一个控制器，数据分布都会发生变化。对于真正想训练通用机器人模型的团队来说，仅靠机器人本体自己采集数据，很难接近互联网级规模。

Human Data 路线的价值，就在这里开始显现。

它提出了一个更大的问题：机器人学习一定要从机器人自己产生的数据开始吗？

如果把人类身体看成一种天然存在、规模庞大、传感器丰富、长期运行在真实世界中的「具身系统」，那么人类日常动作本身就是一种极其稀缺的物理世界数据。它覆盖真实家庭、办公室、厨房、街道、仓储、商店等长尾环境，也天然包含顺手动作、失败修正、物体交互和场景变化。

从这个角度看，human data 可能不是遥操数据的低成本替代品。更底层的逻辑是：具身智能走向大规模预训练之前，最接近「机器人互联网」的数据来源。

unsetunset行为克隆回来了，但难点不在模型本身unsetunset

这期访谈中，还有一个值得聊的店，是徐丹飞对 Behavior Cloning 的重新理解。

在很长一段时间里，BC 在机器人学习领域并不算性感。它容易被批评为误差累积、泛化不足、缺乏探索。相比之下，强化学习、规划、任务运动规划，长期显得更接近机器人学的经典正统。

但过去两年，行业重新看到了 BC 的价值。

原因大体如下。对于大量真实操作任务来说，只要数据质量足够高、系统链路足够稳定，模仿学习仍然是最直接、最有效的路径之一。

机器人不一定要从零探索如何开抽屉、拿杯子、叠毛巾。人类已经在真实世界中完成了无数次类似动作，关键在于能否把这些示范转化成模型可以吸收的训练信号。

但，真正的难点在系统。

做具身的小伙伴最清楚，BC 最难的地方往往不是模型，而是数据采集、相机布置、控制器延迟、系统链路和评测方式。

这一点放到具身智能产业里非常关键。

当下很多讨论容易把 robot learning 简化成模型竞争。但在真实机器人系统里，模型只是链条中的一个环节。相机位置、时钟同步、控制频率、夹爪响应、机械臂刚度、低层控制器、数据清洗、任务定义和成功率评估，都会影响最终策略表现。

BC 的重新回归，表面上看是模仿学习范式重新受到关注，更深层的变化指向 robot learning 从 algorithm-centric 进入 system-centric。

也就是说，具身智能下一阶段的核心能力，不会只体现在模型结构上，还会体现在一家公司能否持续组织高质量数据、稳定训练策略、真实部署评测，并把失败样本重新纳入训练循环。

这套系统能力，才是机器人公司真正难以复制的壁垒。

unsetunset第一人称视频，也只是当下的折中方案unsetunset

访谈中，徐丹飞也谈到了对ego数据的看法。

human data 不是单一的概念。

第三人称视频、第一人称视频、手部轨迹、全身动作、触觉数据、语音指令、任务标注，价值完全不同。对机器人学习来说，真正困难的是在规模和保真度之间找到平衡。

第三人称互联网视频规模最大，但距离机器人执行最远。相机视角不一致，手部经常被遮挡，动作细节缺失，也很难还原力和接触状态。

全身动捕或高精度多模态采集保真度更高，但成本高，场景受限，很难快速扩展到一亿小时这样的量级。

从这个角度出发，第一人称数据也成为了当前很现实的折中方案。

它的视角更接近机器人自身观测，也更容易捕捉手、物体和环境之间的交互关系。如果进一步叠加手部追踪、头部位姿、SLAM、语义标注和任务结构，第一人称视频就不再只是普通视频，而是一种面向机器人学习的数据。

但现有的数据规模，离一亿小时的距离仍然非常非常遥远。

但好在，国内外的头部公司都注意到了这个事情，数采设备和人力都在同步推进。

但如果仔细分析下来，Human data 的 Scaling 可能还是要靠第三人称视频才能堆起来，未来应该会有工作在这方面尝试。

unsetunset真正的竞争，会从模型扩大到数据基础设施unsetunset

一亿小时的缺口，把具身智能的数据缺口讲得足够直观。

但更深层的问题，是谁有能力真正组织这些数据。

如果目标只是几百小时、几千小时，学术实验室、创业团队和开源社区都可以参与。但如果目标上升到千万小时甚至一亿小时，竞争格局会发生翻天腹地的变化，参考自动驾驶行业，你就会发现事情比想象中要复杂很多。

大胆设想一下，智能眼镜、XR 设备、手机、可穿戴设备、家庭机器人、商用机器人，都可能成为未来 human data 的采集入口。

human data 的竞争会连接到更多产业变量：硬件入口、用户网络、隐私合规、数据标注、算力平台、机器人本体、仿真评测和模型训练。

机器人公司的能力边界也会被重新定义。

过去一家机器人公司可以围绕本体、控制和场景交付建立竞争力。

到了 foundation model 阶段，只有机器人本体已经不够。

公司还需要回答：能不能持续拿到高质量数据，能不能把人类数据和机器人数据对齐，能不能从数据中筛出真正有用的片段，能不能跨本体迁移，能不能用评测体系验证能力增长。

这也是我们觉得徐丹飞这期访谈，非常值得和大家分享的地方。

它表面上在讨论 human data、BC、EgoMimic 和 UMI，实际上指向的是具身智能下一阶段的底层分工：模型仍然重要，但数据基础设施会越来越重要。

unsetunset写在最后unsetunset

机器人是否真的需要一亿小时数据，今天还很难给出确定答案。

但这句话背后可以折射出一个提醒：如果具身智能希望复制大模型时代的能力跃迁，就必须面对数据规模、数据质量和数据组织方式这三个问题。

过去几年，行业已经证明了真机数据的价值，也证明了遥操作路线的有效性。

但这条路径成本高、扩展慢、强依赖本体，很难单独支撑通用机器人模型走向下一阶段。

human data 路线提供了另一种可能。从人类在真实世界中的动作痕迹里，提取机器人可以使用的物理先验，再通过跨域对齐、机器人数据共训和真实评测，把这些先验转化成可执行能力。

它不会完全替代其他数据，但方向已经非常明确。

也再次和大家强调一下，未来是系统层面的比拼，数据只是这套能力冰上上的一角。