点击下方卡片,关注【Xbotics具身智能实验室】公众号
更多具身干货,欢迎加入(戳我)
👉具身智能学习资料汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide
👉具身智能求职/实习信息汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job
你想要的这里都有~~

机器人数据教模型“怎么动”,ego 数据教模型“为什么这样动、什么时候动、动了之后世界会怎样变”。真正的具身基础模型需要两者融合。

图 1|具身基础模型的数据 scaling 栈:ego 数据位于互联网视频与机器人轨迹之间,是前机器人经验层。
越来越像大模型早期的某个时刻:大家已经相信“大模型 + 大数据 + 大算力”会改变机器人,但到底什 么数据能够支撑这个 scaling,还没有形成像互联网文本之于 LLM 那样清晰的答案。
机器人当然需要机器人数据。没有真实的动作轨迹、末端执行器控制、力反馈、失败恢复和环境交互 ,模型不可能凭空学会抓杯子、开抽屉、整理桌面、折衣服。但只靠机器人数据,具身智能又很难走到今天语言模型那种规模。真机采集慢、贵、风险高,机器人形态差异大,任务和场景覆盖有限。即使是 Open XEmbodiment、DROID、AgiBot World 这样大规模机器人数据集,也仍然远没有达到互联网图文、视频数据的数量级。
因此,一个更值得追问的问题是:具身智能的基础模型,是否也需要一种“前机器人数据”?
我的判断是:需要。而 ego 数据,也就是来自行动主体第一视角的多模态经验,很可能就是这块长期被低估的拼图。
总的来说,机器人数据教模型“怎么动”,ego 数据教模型“为什么这样动、什么时候动、动了之后世界 会怎样变”。真正的具身基础模型需要两者合流。
一、具身智能为什么卡在数据 scaling 上

图 2|Open X-Embodiment / RT-X 项目总览图。
语言模型的 scaling law 相对清楚:扩大参数、数据和计算,模型的预测损失会沿着相对稳定的规律 下降。Chinchilla 之后,大家进一步意识到,模型大小和数据规模之间还存在计算最优配比。换句话说,LLM 之所以能持续变强,不只是因为模型更大,也因为它能吃到几乎无限扩展的文本 token。
具身智能的问题复杂得多。这里的 token 不只是文字,而是视觉、语言、时间、空间、动作、接触、 力、物体状态、任务目标、记忆和反馈。一个机器人在厨房里“拿起杯子倒水”,表面上是几秒钟动作,背后包含大量隐变量:杯子是否能抓、杯口朝向、液体是否会溢出、手臂是否会碰到桌边、用户到底想要喝水还是清洗杯子、前面是否已经把水壶烧开。
这使得具身 scaling 至少有五个维度:
模型规模:VLA、策略网络、世界模型是否有足够容量。 数据规模:是否有足够多的轨迹、视频、场景和任务。 环境多样性:是否覆盖家庭、工厂、办公室、户外等真实分布。 embodiment 多样性:是否跨单臂、双臂、移动底盘、人形机器人、灵巧手。 反馈质量:是否包含成功、失败、纠错、偏好、专家点评和长期结果。
今天的机器人数据在动作维度上很珍贵,但在生活经验维度上仍然稀缺。Open X-Embodiment 汇聚 了来自 21 个机构、22 种机器人 embodiment 的数据,RT-X 展示了跨机器人数据的 positive transfer;DROID 提供了 76k 条 in-the-wild 操作轨迹,覆盖 564 个场景和 84 个任务;AgiBot World 进一步把机器人轨迹规模推进到百万级。这些工作都说明一件事:机器人学习确实开始进入数据规模化阶段。
但它们也暴露了另一件事:即使机器人数据增长很快,它仍然是昂贵数据。每一小时真机数据都需要 硬件、场地、人力、安全边界和后处理。相比之下,人类每天都在物理世界中行动:做饭、整理、修理、购物、运动、学习、协作。第一视角设备如果能够记录这些过程,就会形成一种更接近“互联网级 physical experience”的数据来源。
这就是 ego 数据的战略位置:它不是要替代机器人数据,而是改变机器人数据的边际价值。
更具体地说,ego 数据可能让具身模型在接触少量机器人动作标签之前,先通过大规模人类行动经验 学会物理世界中的常识、意图、任务结构和状态变化。这样,机器人数据不再承担从零教会模型理解世界的全部责任,而更像是把已有的行动先验对齐到某个具体身体上。
二、Ego 数据到底是什么:不只是第一视角视频

图 3|Ego4D 第一视角数据示例拼图
很多人把 ego 数据等同于“第一视角视频”。这只是最浅的一层。
在具身智能语境里,ego 数据应该被理解为行动主体的自我中心经验记录。它可以来自头戴相机、 AR 眼镜、胸前相机、手眼相机、机器人头部相机,也可以伴随音频、IMU、眼动、深度、3D 点云、手部姿态、身体姿态、物体轨迹、语言旁白、专家评论、任务阶段、失败标注和用户反馈。
它的特殊性不在于摄像头离眼睛近,而在于它记录的是“行动者如何经历世界”。
第三视角视频往往更清楚地看到全局,但它不知道行动者正在注意什么。互联网图片能告诉模型“这 是杯子”,短视频能告诉模型“杯子被拿起来了”,但第一视角视频能暴露更细的过程:手伸出之前,视线先落到杯柄;拿杯子时手会避开热水区域;倒水前会确认杯口和水壶口的相对位置;动作失败后会停顿、调整、再试一次。
这些细节很难用一句 caption 概括,却正是具身智能最缺的东西。机器人不是在静态世界里回答问题 ,而是在部分可观测、连续变化、充满接触和遮挡的世界里行动。ego 数据的价值,就是把“看见”与“行动意图”天然绑定在一起。
这也是为什么 ego 数据不能只被放在视频理解领域里看。它本质上是人类行动经验的一种压缩表示。
三、从 Ego4D 到 EgoLife:ego 数据的技术演化

图 4|Ego 数据从视频理解到具身基础模型数据底座的演化路径。

图 5|Ego-Exo4D 数据集总览图,展示 ego/exo 多视角与多模态标注。
表 1|代表性 ego 数据与具身智能价值

Ego 数据的发展,可以看作一条从“视频理解 benchmark”走向“具身基础模型数据底座”的路线。
第一阶段是 Ego4D 代表的大规模第一视角视频理解。Ego4D 的论文题目叫 《Around the World in 3,000 Hours of Egocentric Video》,它把公开 egocentric video 的规模推到数千小时级,并设计了 episodic memory、hand-object interaction、audio-visual conversation、social interaction、forecasting 等任务。它 的重要性不只是数据大,而是把第一视角理解从少数厨房、实验室场景推进到更广泛的日常生活。
第二阶段是 EPIC-KITCHENS、VISOR 等手-物交互数据集形成的精细操作理解路线。厨房场景看似窄,但对具身智能非常关键,因为它高频出现容器、工具、液体、遮挡、开合、切割、倒入、拿取、清洗等 manipulation 原语。很多机器人桌面操作任务,本质上都能在这些 ego 数据里找到人类版本的动作先验。
第三阶段是 Ego-Exo4D 所代表的 ego-exo 多视角、多模态采集。Ego-Exo4D 同步记录第一视角和多个第三视角,覆盖 1,286 小时视频、740 位参与者、123 个场景、13 个城市,并包含音频、眼动、3D 点云、相机位姿、IMU、语言描述、专家评论和技能评分。它解决了第一视角数据的一个结构性缺陷:行动者看到的东西很重要,但行动者的身体、全局姿态和环境布局经常被遮挡。ego-exo 同步让模型既能知道“我看到什么”,也能知道“我整个人在世界中怎么动”。
第四阶段是 Project Aria、Aria Digital Twin、Aria Everyday Activities、Nymeria 这类 AR 眼镜和 3D 真实世界数据。它们把 ego 数据从 RGB 视频进一步推进到可定位、可重建、可度量的 3D 世界。对具身智 能而言,这一点非常关键。因为机器人最终不是在像素里行动,而是在有尺度、有几何、有接触关系的物理空间里行动。
第五阶段是 EgoLife 代表的生活级助手数据。EgoLife 的目标不只是识别动作,而是构建 egocentric life assistant:一个能陪伴用户、记住经历、回答问题、辅助决策的可穿戴 AI 系统。它把问题从“这段视频里发生了什么”推进到“在长期生活流中,我如何检索、理解、规划和帮助”。这和具身智能基础模型的长期目标非常接近:机器人也不应该只是执行 isolated task,而应该在长期环境里形成记忆和适应。
这条演化线说明,ego 数据正在发生一个范式转变:也就是说,ego 数据的终点不是更高的 action recognition accuracy,而是为 embodied foundation model 提供人类行动经验。
四、Ego 如何影响 VLA:从动作预测到意图理解

图 6|OpenVLA 模型。

图 7|Ego 数据如何补充 VLA 的 history、memory、intent 与 world prior。
表 2|VLA/WAM 相关模型路线与 ego 数据接口

VLA,也就是 Vision-Language-Action model,是过去几年机器人基础模型最重要的路线之一。RT-2 的关键思想是把机器人动作也表示成 token,让视觉语言模型不仅能理解图像和指令,还能直接输出机器人动作。OpenVLA、π0、GR00T N1 等工作则进一步探索开源 VLA、flow matching 动作生成、人形机器人通用策略等方向。但 VLA 有一个容易被忽略的问题:它的名字里有 vision、language、action,却没有memory,也没有 intent。
如果一个 VLA 只看到当前图像和一句指令,它可以学到“把红色积木放进碗里”这样的短程映射。但真 实场景往往不是这么干净。用户可能说“帮我继续刚才的事”,桌面上可能有多个相似物体,抽屉里可能有之前放进去的工具,某个动作是否合理取决于几分钟前发生过什么。更重要的是,很多动作不是由当前帧唯一决定的,而是由意图和任务阶段决定的。
Ego 数据能给 VLA 补上三种能力。
第一是第一视角感知分布。机器人头部相机、手眼相机、AR 眼镜看到的世界,都更接近 ego view, 而不是互联网图片或第三视角视频。第一视角有强烈的运动模糊、遮挡、手部占据、近距离物体、局部视野和快速视角切换。如果模型没有在这种分布上预训练,它对真实机器人输入的鲁棒性会受限。
第二是 hand-object-affordance 先验。人类在 ego 视频里的手不是普通视觉元素,而是行动意图的显式指针。手伸向哪里,往往意味着哪里是可操作区域;手如何调整姿态,隐含了物体的抓取方式;手是否犹豫或重新定位,反映了接触不确定性。对 VLA 来说,这些都是比普通 caption 更接近动作的监督。
第三是语言与任务结构对齐。Ego-Exo4D 的专家评论、第一人称叙述、keystep 标注和技能评分,提 供的不只是“一个人在做饭”,而是“这个动作为什么是关键步骤、哪里做得不熟练、下一步应该怎样改进”。这类数据对于从 instruction following 走向 skill learning 很重要。
因此,ego 数据对 VLA 的影响不是简单地多给一些视频预训练,而是让 VLA 从 reactive policy 走向intent-aware policy。 Ego 数据最擅长提供的,正是 history、memory、intent 和 world prior。
五、Ego 如何影响 WAM:从看见世界到预测世界变化

图 8|EgoMimic 方法图:从 egocentric human videos 与手部轨迹桥接到机器人模仿学习。

图 9|EgoMimic scaling 相关实验图。
如果说 VLA 解决的是“看到当前状态后该怎么动”,那么 WAM,或者更广义的 World Action Model,试图解决的是“动作会如何改变世界”。
这两者的差别很重要。一个 VLA 可以学成一个强大的条件动作生成器:输入图像和语言,输出末端 位姿、关节动作或离散动作 token。但这并不保证模型真的理解了物理后果。它可能知道“把杯子拿起来”对应某种轨迹,却不一定知道杯子里有水时倾斜会洒,塑料袋会变形,抽屉卡住时需要先调整角度。
NVIDIA 对 World Action Model 的定义也强调,它不同于只直接预测动作的 VLA,而是同时建模世界如何变化以及 agent 如何通过动作塑造这种变化。DreamGen、Cosmos World Foundation Models、OA-WAM、X-WAM 等工作都指向同一个趋势:具身智能不能只做行为克隆,还需要能预测、想象和评估物理世界的演化。
这时 ego 数据的价值会更加明显。世界模型最需要的是大量状态转移。而第一视角人类视频天然记录了行动者造成世界变化的过程。拿起杯子之前,杯子在桌上;手接近之后,杯子被遮挡;接触发生后,杯子移动;倒水之后,水位变化;失败时,水洒出或杯子滑落。虽然 ego 视频没有机器人动作标签,但它有非常丰富的“世界变化标签”。
这对 WAM 特别有用。因为一个好的 WAM 不一定一开始就必须知道每个机器人关节如何控制,它可 以先学习更抽象的 action-conditioned transition:推会让物体平移,拉会让抽屉打开,旋转会改变把手姿态,倒置会让容器内容物流出。之后,再通过机器人数据把这些抽象变化对齐到具体控制。
EgoMimic 是这条路线的一个早期信号。它不是只从人类视频里抽取高层意图,而是使用 Project Aria 眼镜采集 egocentric human videos 和 3D hand tracking,再通过跨域对齐与机器人数据共同训练。论文还报告了一个有意思的趋势:增加 1 小时额外手部数据,在某些设置下比增加 1 小时机器人数据更有价值。这个结果不应该被过度外推,但它至少说明,人类 ego demonstration 并不是只能做辅助标注,它有机会直接改 变 imitation learning 的数据效率。
未来更强的 WAM 很可能会使用一种中间表示,把 ego 视频里的隐含动作翻译成机器人可用信号:**这 条链路打通后,ego 数据就不再只是“观察人类”,而会成为机器人学习物理因果和任务结构的大规模预训练语料。 **
六、Ego 数据的优势:规模、真实、长时程、人类先验
Ego 数据之所以值得被放到 scaling law 的讨论里,是因为它具备机器人数据很难同时满足的四个优势。
首先是规模潜力。人类日常行动远比机器人操作更容易采集。随着 AR 眼镜、可穿戴设备、头戴式摄像头和轻量化传感器成熟,第一视角数据的增长速度可能远超真机机器人数据。当然,这里有隐私和授权问题,但从物理采集成本看,ego 数据天然更接近互联网数据的扩展逻辑。
其次是真实分布。仿真可以生成无限数据,但仿真世界很难完全覆盖真实生活中的混乱:桌面上的杂 物、厨房里的水渍、衣服的褶皱、工具的磨损、人的犹豫、空间的狭窄、任务的临时变化。Ego 数据来自真实人类生活,保留了这些“长尾的不整洁”。对具身模型来说,这些不整洁不是噪声,而是未来部署时必然遇到的分布。
第三是长时程。很多机器人数据是几十秒到几分钟的短轨迹,而人类生活天然是小时级、天级甚至周 级连续过程。EgoLife、EgoSchema、MM-Ego、Ego-R1 等工作把 egocentric video 推向长视频理解、记忆检索和复杂问答,这对于 embodied agent 非常关键。一个真正有用的家庭机器人,不能只知道当前帧里有什么,还要知道钥匙昨天被放在哪里、用户刚才为什么中断任务、厨房台面是否已经清理过。
第四是人类先验。人类不是随机探索世界,而是带着目标、常识、社会规范和身体约束行动。Ego 数 据记录的是人类如何选择下一步,而不是物理世界所有可能变化的平均样本。这种偏置对机器人恰恰有用:它让模型学习哪些动作是自然的、经济的、安全的、符合人类期望的。
换句话说,ego 数据给具身模型提供的不是单纯视觉知识,而是一种“从人类行动者角度组织起来的世 界知识”。
七、Ego 数据的限制:action gap、embodiment gap、隐私、标注与因果缺失
表 3|Ego 数据的优势与限制:为什么它重要但不能单独解决具身智能

当然,ego 数据不是万能解药。它的问题同样尖锐。
第一个限制是 action gap。机器人学习最终需要可执行动作,而多数人类 ego 视频没有关节角、力矩、末端位姿、夹爪开合等标签。视频中看到“人拿起杯子”,并不等于知道机器人该如何控制电机。要把 ego数据变成机器人可学信号,必须经过 hand tracking、3D reconstruction、object pose estimation、contact inference、latent action learning 或 inverse dynamics 等中间步骤。
第二个限制是 embodiment gap。人的手、手腕、肩膀、躯干和视觉系统,与机械臂、夹爪、灵巧手 、人形机器人都不同。人能用指腹微调,机器人未必能;人可以靠触觉和肌肉记忆完成动作,视频未必记录这些信号。越是精细操作,embodiment gap 越难跨越。
第三个限制是 partial observability。第一视角虽然接近行动者,但它看不到很多重要信息:身体姿态、手背后的接触点、被遮挡的物体、完整空间布局。Ego-Exo4D 之所以重要,正是因为单纯 ego view 不够,需要第三视角、3D 点云、IMU 和多模态数据补全。
第四个限制是隐私。连续记录第一视角生活,必然捕获人脸、家庭空间、语音、位置、社交关系、个 人习惯和敏感行为。这个问题比普通图像数据更严重,因为 ego 数据不是偶然拍到世界,而是在长期记录一个人的生活。未来 ego 数据要规模化,必须依赖严格的授权、去标识化、本地处理、差分隐私、访问控制和数据治理。
第五个限制是标注成本。对具身智能真正有用的标注,不是“正在切菜”这种粗粒度标签,而是接触发 生在哪里、工具是否正确使用、动作为什么失败、下一步子目标是什么、物体状态如何变化。这些标注难度远高于图像分类或普通视频 caption。
第六个限制是因果缺失。Ego 视频记录了结果,但未必区分相关和因果。一个人先看杯子再拿杯子, 并不说明所有任务都需要先看杯子;一个动作成功,可能依赖看不见的触觉、力量或环境条件。WAM 如果直接从视频预测未来,也可能学到表面相关性,而不是可迁移的物理因果。
所以,ego 数据的正确用法不是“拿来直接训练机器人”,而是作为多源数据体系中的一环。它擅长提供人类行动经验和物理变化先验,但必须和机器人轨迹、仿真、合成数据、真实反馈共同使用。
八、未来数据配方:ego + robot + sim + synthetic + feedback
如果具身智能真的存在类似 scaling law 的规律,那么未来关键竞争不会只是“谁的模型更大”,而是谁能构建更好的数据配方。
在这个体系里,ego 数据的角色非常独特。它既不像互联网图文那样停留在语义层,也不像机器人轨 迹那样昂贵稀缺;它位于二者之间,是人类物理经验与机器可执行动作之间的桥。
更具体地说,未来可能出现几类 ego-driven 数据飞轮。
第一类是可穿戴采集飞轮。AR 眼镜和生活助手在用户授权下记录日常操作,模型从中学习记忆、任务结构和物体可供性,再反过来提升助手能力。
第二类是机器人模仿飞轮。人类用第一视角设备自然完成任务,系统自动提取手部轨迹、物体状态变化和子目标,再用少量机器人数据进行 embodiment 对齐。
第三类是 world model 生成飞轮。Ego 视频训练视频世界模型,世界模型生成更多可控状态转移和失败案例,再用于训练 WAM 或策略模型。
第四类是 ego-exo 教学飞轮。专家执行技能时同步采集第一视角、第三视角、语音讲解和评分,模型 不仅学习动作结果,还学习教学语言、错误诊断和技能评价。
第五类是真实反馈飞轮。机器人在真实环境中执行任务,失败片段被回流,系统再检索相似的人类 ego 经验或生成反事实训练样本,用于下一轮策略改进。
这类数据飞轮最终会改变 scaling 的含义。具身模型的 scaling 不会只是“更多轨迹”,而是“更多可对 齐的物理经验”。
九、结论:机器人基础模型需要的不只是手,而是第一视角的生活经验
今天的 VLA 已经证明,视觉语言模型的知识可以迁移到机器人控制。RT-2 让 web-scale VLM 输出动作,OpenVLA 让开源社区拥有可复现的 VLA 基线,π0 用 flow matching 处理更复杂的连续动作,GR00T N1 把通用机器人基础模型推向人形机器人。与此同时,WAM 和 world foundation model 路线正在提醒我们:机器人不应该只学会“看到什么就做什么”,还应该学会预测动作如何改变世界。
在这个转折点上,ego 数据的重要性会被重新认识。
它不是视频理解领域的一个小分支,也不是 AR 眼镜应用的副产品。它可能是具身智能 scaling 中缺失的一类高密度经验数据。它把视觉、语言、手、物体、注意力、记忆、任务和结果压缩在同一个行动流里,让模型有机会从“旁观世界”转向“以行动者身份理解世界”。
当然,ego 数据不会单独解决具身智能。没有机器人数据,它无法落到具体控制;没有仿真和生成数 据,它很难覆盖足够多的反事实和危险场景;没有人类反馈,它难以学会安全、偏好和规范。但它提供了一种机器人数据本身难以提供的东西:大规模、真实、长时程、带有人类意图的第一视角物理经验。
因此,未来的具身基础模型很可能不是单靠机器人遥操作数据训练出来的,也不是单靠互联网视频“看出来”的,而是由多种经验共同塑造。
如果说 LLM 的 scaling law 建立在文本 token 之上,那么具身智能的 scaling law 也许会建立在embodied experience token 之上。Ego 数据的意义,正是在于它让这种 token 第一次具有了接近互联网规模的可能性。
机器人基础模型需要的不只是更灵巧的手,也需要第一视角的生活经验。因为真正的行动智能,从来 不是只知道如何移动身体,而是知道为什么行动、何时行动,以及行动之后世界会变成什么样。
-END-
Ask Me Anything|提问箱
❝对文章有疑惑,或想聊更深?欢迎把你的问题丢给我们:技术方案、实操踩坑、课程与资料、项目合作、职业发展,都可以问。
怎么问:在评论区留言,或私信公众号
我们会做什么:每周集中整理高质量问题并公开回复,重点问题邀请作者或嘉宾深度解答;典型问题会加入知识库并持续更新。
提问小提示:尽量说明「你的目标—当前做法—期望产出」,附上必要信息(硬件/软件版本、数据规模等),能更快获得有用答案。
一起把问题变成知识,推动社区进步 🚀
