徐丹飞,一亿小时人类数据 “可买” 机器人 GPT-3 时刻

具身智能之心 2026-05-20 08:58

先抛一个问题:大家认为,机器人行业距离自己的 GPT-3 Moment 还有多远?

是这样,最近有时间我们学习了下 WhynotTV 第五期的访谈,何泰然专访佐治亚理工助理教授、NVIDIA AI 研究员徐丹飞。

徐丹飞说:机器人要迎来类似 GPT-3 的能力跃迁,可能需要 1 亿小时的高质量人类数据。

嗯,一亿小时,这个量级本身已经足够重要。

它把具身智能当前最核心的矛盾推到了台前:机器人真正缺的,可能不只是更大的 VLA、更强的世界模型,或者更灵巧的人形本体,而是一套足以支撑模型涌现的物理世界数据基础设施。

今天,具身智能之心就和大家讨论下这个内容,human data,人类数据。

徐丹飞,一亿小时人类数据 “可买” 机器人 GPT-3 时刻图1

unsetunset一亿小时背后,其实卡在机器人没有自己的互联网unsetunset

把「一亿小时」放到行业里看,它指向的只有一个核心问题:机器人还没有形成自己的互联网数据层。

和大模型的打法不一样,语言模型可以从网页、书籍、代码仓库和论坛中学习人类知识。

视觉模型可以从互联网图像和视频中学习世界表征。但机器人要学习的是动作,是接触,是力,是身体如何在三维空间中与物体发生关系。

但这些信息你很难从文本中获得,也很难完全依赖第三人称视频得到。

一个人拿杯子的动作,看起来只是手伸出去、握住、抬起。但放到机器人系统中看,里面包含手眼协调、接触判断、抓取姿态、物体稳定性、失败恢复,以及大量人类在长期生活中形成的隐性物理常识。

这就是之前 Generalist 所说的「机器人学习暗物质」。

徐丹飞,一亿小时人类数据 “可买” 机器人 GPT-3 时刻图2

这类数据过去并没有以机器人可学习的方式存在。

行业此前更熟悉的路径,是让机器人自己采数据。通过遥操作、VR、主从臂。让人控制机器人完成任务,再用这些数据训练策略。这条路线有效,也已经支撑了 ALOHA、UMI 以及一批端到端操作模型的进展。

但问题同样明显:机器人数据昂贵、慢、难规模化,而且高度绑定具体本体。

同一套任务,换一个夹爪、换一个机械臂、换一个控制器,数据分布都会发生变化。对于真正想训练通用机器人模型的团队来说,仅靠机器人本体自己采集数据,很难接近互联网级规模。

Human Data 路线的价值,就在这里开始显现。

它提出了一个更大的问题:机器人学习一定要从机器人自己产生的数据开始吗?

如果把人类身体看成一种天然存在、规模庞大、传感器丰富、长期运行在真实世界中的「具身系统」,那么人类日常动作本身就是一种极其稀缺的物理世界数据。它覆盖真实家庭、办公室、厨房、街道、仓储、商店等长尾环境,也天然包含顺手动作、失败修正、物体交互和场景变化。

从这个角度看,human data 可能不是遥操数据的低成本替代品。更底层的逻辑是:具身智能走向大规模预训练之前,最接近「机器人互联网」的数据来源。

unsetunset行为克隆回来了,但难点不在模型本身unsetunset

这期访谈中,还有一个值得聊的店,是徐丹飞对 Behavior Cloning 的重新理解。

在很长一段时间里,BC 在机器人学习领域并不算性感。它容易被批评为误差累积、泛化不足、缺乏探索。相比之下,强化学习、规划、任务运动规划,长期显得更接近机器人学的经典正统。

但过去两年,行业重新看到了 BC 的价值。

原因大体如下。对于大量真实操作任务来说,只要数据质量足够高、系统链路足够稳定,模仿学习仍然是最直接、最有效的路径之一。

机器人不一定要从零探索如何开抽屉、拿杯子、叠毛巾。人类已经在真实世界中完成了无数次类似动作,关键在于能否把这些示范转化成模型可以吸收的训练信号。

但,真正的难点在系统。

做具身的小伙伴最清楚,BC 最难的地方往往不是模型,而是数据采集、相机布置、控制器延迟、系统链路和评测方式。

这一点放到具身智能产业里非常关键。

当下很多讨论容易把 robot learning 简化成模型竞争。但在真实机器人系统里,模型只是链条中的一个环节。相机位置、时钟同步、控制频率、夹爪响应、机械臂刚度、低层控制器、数据清洗、任务定义和成功率评估,都会影响最终策略表现。

BC 的重新回归,表面上看是模仿学习范式重新受到关注,更深层的变化指向 robot learning 从 algorithm-centric 进入 system-centric。

也就是说,具身智能下一阶段的核心能力,不会只体现在模型结构上,还会体现在一家公司能否持续组织高质量数据、稳定训练策略、真实部署评测,并把失败样本重新纳入训练循环。

这套系统能力,才是机器人公司真正难以复制的壁垒。

unsetunset第一人称视频,也只是当下的折中方案unsetunset

访谈中,徐丹飞也谈到了对ego数据的看法。

human data 不是单一的概念。

第三人称视频、第一人称视频、手部轨迹、全身动作、触觉数据、语音指令、任务标注,价值完全不同。对机器人学习来说,真正困难的是在规模和保真度之间找到平衡。

第三人称互联网视频规模最大,但距离机器人执行最远。相机视角不一致,手部经常被遮挡,动作细节缺失,也很难还原力和接触状态。

全身动捕或高精度多模态采集保真度更高,但成本高,场景受限,很难快速扩展到一亿小时这样的量级。

徐丹飞,一亿小时人类数据 “可买” 机器人 GPT-3 时刻图3

从这个角度出发,第一人称数据也成为了当前很现实的折中方案。

它的视角更接近机器人自身观测,也更容易捕捉手、物体和环境之间的交互关系。如果进一步叠加手部追踪、头部位姿、SLAM、语义标注和任务结构,第一人称视频就不再只是普通视频,而是一种面向机器人学习的数据。

但现有的数据规模,离一亿小时的距离仍然非常非常遥远。

但好在,国内外的头部公司都注意到了这个事情,数采设备和人力都在同步推进。

但如果仔细分析下来,Human data 的 Scaling 可能还是要靠第三人称视频才能堆起来,未来应该会有工作在这方面尝试。

unsetunset真正的竞争,会从模型扩大到数据基础设施unsetunset

一亿小时的缺口,把具身智能的数据缺口讲得足够直观。

但更深层的问题,是谁有能力真正组织这些数据。

如果目标只是几百小时、几千小时,学术实验室、创业团队和开源社区都可以参与。但如果目标上升到千万小时甚至一亿小时,竞争格局会发生翻天腹地的变化,参考自动驾驶行业,你就会发现事情比想象中要复杂很多。

大胆设想一下,智能眼镜、XR 设备、手机、可穿戴设备、家庭机器人、商用机器人,都可能成为未来 human data 的采集入口。

human data 的竞争会连接到更多产业变量:硬件入口、用户网络、隐私合规、数据标注、算力平台、机器人本体、仿真评测和模型训练。

机器人公司的能力边界也会被重新定义。

过去一家机器人公司可以围绕本体、控制和场景交付建立竞争力。

到了 foundation model 阶段,只有机器人本体已经不够。

公司还需要回答:能不能持续拿到高质量数据,能不能把人类数据和机器人数据对齐,能不能从数据中筛出真正有用的片段,能不能跨本体迁移,能不能用评测体系验证能力增长。

这也是我们觉得徐丹飞这期访谈,非常值得和大家分享的地方。

它表面上在讨论 human data、BC、EgoMimic 和 UMI,实际上指向的是具身智能下一阶段的底层分工:模型仍然重要,但数据基础设施会越来越重要。

徐丹飞,一亿小时人类数据 “可买” 机器人 GPT-3 时刻图4

unsetunset写在最后unsetunset

机器人是否真的需要一亿小时数据,今天还很难给出确定答案。

但这句话背后可以折射出一个提醒:如果具身智能希望复制大模型时代的能力跃迁,就必须面对数据规模、数据质量和数据组织方式这三个问题。

过去几年,行业已经证明了真机数据的价值,也证明了遥操作路线的有效性。

但这条路径成本高、扩展慢、强依赖本体,很难单独支撑通用机器人模型走向下一阶段。

human data 路线提供了另一种可能。从人类在真实世界中的动作痕迹里,提取机器人可以使用的物理先验,再通过跨域对齐、机器人数据共训和真实评测,把这些先验转化成可执行能力。

它不会完全替代其他数据,但方向已经非常明确。

也再次和大家强调一下,未来是系统层面的比拼,数据只是这套能力冰上上的一角。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
π0.7、DreamZero、VPP架构:机器人基础模型正在三分天下
陆奇,机器人最博爱的「父亲」
从汽车电子到人形机器人:一套技术体系是如何跨界复用的?
跑起来了!openKylin成功适配RISC-V具身智能人形机器人
中国机器人,梦想是当打工仔
前地平线产品负责人死磕「拿放」动作,轮式机器人今年锁定百台出货丨早起看早期
地平线机器人斥资约5422万港元购回870万股,全部作为库存股份
“水下大疆”深之蓝冲击“中国水下机器人第一股”,蓝启智能连续完成A轮及A+轮融资
先楫半导体获京国瑞战略投资,高性能MCU深化机器人核心场景应用
产品 | Neuralink推出新一代脑机接口植入手术机器人:面向规模化应用
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号