2024-2026年,机器人学习领域正在发生一场静默的数据革命:人类第一视角(EGO)数据不再是"真机数据的廉价替代品",而是被EgoMimic、EgoDex、EgoScale等研究验证为策略性能的增益放大器。
NVIDIA甚至验证了对数线性ScalingLaws,EGO数据时长每翻倍,任务成功率可预测地提升。
但热潮之下,一个基本问题被很多人忽略了:什么样的EGO数据才真正能用?
用手机挂头上录一段?用VR头显采一批?标注画个框就够了吗?真机数据还要不要采?这些问题没有标准答案,但有明确的"红线"。
【具身进化】整理了EGO数据在机器人学习领域的核心认知,把最核心的认知提炼成十个问答,让你搞懂机器人第一视角数据采集的门道。
一问:
EGO数据到底是什么?
EGO数据,全称egocentricdata,核心就是记录“我”如何感知和操作世界的数据。对机器人来说,这种第一视角数据是训练操作策略最接近真实部署环境的信息源。
【"Ego"取自拉丁语ego(我/自我),对应英文egocentric——第一人称视角,区别于旁观者视角的第三人称(exocentric)】
为什么是Ego?
从第一性原理看,人类操作靠的是“头部视角感知双手”的直觉。把摄像头架在人头上,模拟人眼观察双手操作,再将这套逻辑迁移到“同构”的机器人本体上(即有头、有手臂、有灵巧手的类人设备),这种才是最接近真实部署环境的数据。
二问:
为什么非要EGO数据?第三人称视频不行吗?
可以,但视角不匹配会导致策略失效。
用头戴设备采集的画面训练出的策略,机器人看到的是"手从画面下方伸进来";而机器人手腕末端的相机是从物体上方15–30cm处向下拍摄。两者观测到的手与物体的相对位置、倾角、遮挡关系完全不同。
如果训练时看到的画面和部署时看到的画面不一致,模型从训练初期就被迫进行"无约束泛化",这就会导致训练集、验证集上表现优异,一放到真实环境就频繁失效。
以前大家以为拿人类视频教机器人是“退而求其次”,现在2024-2026年的研究实锤:人类第一视角视频根本不是廉价替代品,而是能让真机数据“开外挂”的倍增器;NVIDIA甚至发现了机器人的“刷题定律”:人类视频每翻一倍,任务成功率就像按计算器一样稳涨一格,大力真的能出奇迹。
三问:采集EGO数据用什么设备?
目前行业还没有定论,设备仍处于市场早期阶段。
现在常见的设备路线大致分三类:

早期demo阶段用VR头显或手机没问题,但若要训练真正能在机器人上运行的策略,采集设备的相机视场角、安装位置、深度数据必须和机器人机载传感器完全匹配,否则训练出来的模型迁移到真机时会"水土不服"。
四问:数采的成果是切片还是长视频?
两种模式都有,但真实场景采集以连续长视频为主。
在仿真环境或主从遥操作场景下,可以按任务切片——先做什么、后做什么,人为设定环境,动作片段清晰可控。
但在真实的工作场景(厂房、仓库、家庭厨房)里,不太可能先搭建场景、再动作切片、再写步骤描述。因为原生真实环境的核心优势恰恰是:搭建成本低、足够真实、能快速积累大量数据。这时候就没有"切片"的概念了——设备启动后一直录,直到电量耗尽或任务结束。
最终成果往往是一段连续视频:可能十几分钟、几十分钟,甚至一两个小时,同时包含多个单目相机画面和IMU数据流。
五问:视频录完就结束了吗?
录制只是开始,后面还有一整套数据管线。
获取数据只是最早的一个阶段。录下来的原始视频不能直接喂给模型,中间需要经过:
1)数据清洗:剔除无效片段(设备抖动、画面过曝、操作失误)
2)标注加工:逐关节手部姿态、接触点、物体状态变化、故障标识
3)质量验证:确保每条数据在进入训练环节前是"可用的"
不是采的每一条数据都能用。中间有很多问题,需要通过一系列工具和手段来保证数据的可用性,以及进入模型训练时不会引入噪声。
六问:什么样的EGO数据才真正能用于机器人训练,有标准吗?
有,而且门槛很高。
首先是硬件,能用来训练的EGO数据绝不是随便拿GoPro拍拍就行,核心在于“对齐”。相机的视场角(FOV)必须与机器人本体严格匹配,哪怕只差一点点,模型就会因为“看错”物体的大小和位置而废弃。
此外,单纯的RGB画面毫无价值,必须配套深度信息、IMU和骨骼数据,形成多模态的同步流,才能还原动作背后的物理逻辑。
标注和剧本决定了数据的上限。只有画面还不行,必须有关键点的“逐关节手部标注”,告诉模型手指怎么弯、力度多大;更核心的是“接触点标注”,明确手和物体何时接触、怎么用力,这点后期补不了。
最后,光拍正常干活不够,必须设计“故障与恢复”的脚本(比如东西掉了怎么捡),覆盖边缘场景,否则训练出的机器人只是理想环境下的花架子,一碰就碎。
七问:EGO数据能完全替代机器人真机数据吗?
现阶段不能。
在数据金字塔里,真机数据(机器人在真实硬件上采集的数据)仍然是最顶层、价值最高的数据。
最核心的矛盾在于“动作鸿沟”:人类的骨骼和关节极其灵活,很多动作(如反手拧瓶盖、用手指精细捏取)是目前的机械臂和灵巧手物理上执行不出来的。如果只用人类视频训练,模型会学到机器人根本做不了的动作,导致“脑子会了,手残了”。
因此,真机数据提供了最关键的“构型一致性”和“动作可达空间”,确保学到的策略能在实际硬件上跑通。
长期看,EGO负责泛化,真机负责兜底,两者是共存的。
由于真机采集成本极高、效率极低,行业通行做法是采用“三元混合配比”:用海量的EGO数据教机器人“懂常识、会泛化”,用少量的真机数据做“对齐校准”,再用仿真数据做补充。至于这三类数据的比例如何分配、在哪个训练阶段加入,则是各家公司的选择。
八问:EGO采集应该去工厂统一采,还是个人在家就能做?
分阶段,不可能一步到位。
早期demo阶段:在搭建场景中采集没问题,场景可控、变量少,方便验证算法和流程。
规模化阶段:必须过渡到真实场景。原因很实际:
成本低:不需要搭建专用数采工厂
足够真实:环境复杂度、光照、物体摆放都是自然状态
容易scaling:场景天然存在多样性,不需要人为设计每一种变体
现在的趋势已经在慢慢从搭建场景向真实场景过渡了。但中间需要经历一个认知过程:先知道什么数据有用,再逐步放大规模。
九问:标注精细度到底多重要?
标注精细度直接决定数据集是否具备可训练价值。
绝大多数项目在启动阶段都会严重低估标注工作的复杂度。操纵策略训练需要的标注远超视觉检测的水平:

为什么逐关节标注这么重要?基于逐关节标注训练的策略,对全新物体外形泛化能力更强;仅使用包围盒训练的模型不具备该特性。
而接触点标注目前所有公开EGO数据集均未提供工业化标准,绝大多数商用标注流水线也仍处于测试阶段。
十问:
EGO数据采集目前还有哪些"卡脖子"的难题?
至少还有以下客观难题,全行业都绕不开:
首先是感知与物理信号的双重缺失。在技术层面,“手部遮挡”是老大难问题,抓取瞬间的手指闭合往往被物体挡住,导致骨骼追踪精度暴跌,模型难以学习精细动作.
更致命的是“力传感数据”的空白,目前所有公开数据集只有视频画面,缺乏电机信号与夹爪力度反馈,这让机器人面对软硬不一的物体时,无法通过视觉判断该用多大的劲,成了策略训练的致命短板。
其次是“人”带来的数据噪声与合规成本。长时间佩戴沉重设备会导致“操作疲劳”,人员动作变形、速度变慢,这些“疲劳数据”会严重污染训练集的分布;同时,第一视角天然涉及人脸与环境隐私,在GDPR等法规下,工业化采集前的授权与脱敏处理,构成了不可忽视的合规门槛。
最后是仿真与现实的深层割裂。单纯依靠通用模型生成的仿真数据,会在训练中引入巨大的分布偏移。要想缩小“Sim-to-Real”的差距,必须耗费巨资对真实环境进行毫米级的三维扫描与重建,而不能仅靠通用模板,这使得低成本大规模扩充数据变得极为困难。
总之,EGO数据不是"拍点第一人称视频"那么简单。从设备选型到多模态同步,从脚本化场景设计到毫米级关节标注,再到合规与力传感补全,每一个环节都在决定最终策略能否从训练环境顺利迁移到真实机器人。
理解这些问题的本质,才能在数据投入上做出正确决策,而不是在错误的数据上反复训练。
