点击下方卡片，关注【Xbotics具身智能实验室】公众号

更多具身干货，欢迎加入（戳我）

👉具身智能学习资料汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide

👉具身智能求职/实习信息汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job

你想要的这里都有~~

知识星球本周精选｜Ego 数据：具身 Scaling Law 缺失的一块拼图 —— 为什么 Ego 数据可能成为机器人基础模型 scaling law 的燃料图1

机器人数据教模型“怎么动”，ego 数据教模型“为什么这样动、什么时候动、动了之后世界会怎样变”。真正的具身基础模型需要两者融合。

知识星球本周精选｜Ego 数据：具身 Scaling Law 缺失的一块拼图 —— 为什么 Ego 数据可能成为机器人基础模型 scaling law 的燃料图2

图 1｜具身基础模型的数据 scaling 栈：ego 数据位于互联网视频与机器人轨迹之间，是前机器人经验层。

越来越像大模型早期的某个时刻：大家已经相信“大模型 + 大数据 + 大算力”会改变机器人，但到底什么数据能够支撑这个 scaling，还没有形成像互联网文本之于 LLM 那样清晰的答案。

机器人当然需要机器人数据。没有真实的动作轨迹、末端执行器控制、力反馈、失败恢复和环境交互，模型不可能凭空学会抓杯子、开抽屉、整理桌面、折衣服。但只靠机器人数据，具身智能又很难走到今天语言模型那种规模。真机采集慢、贵、风险高，机器人形态差异大，任务和场景覆盖有限。即使是 Open XEmbodiment、DROID、AgiBot World 这样大规模机器人数据集，也仍然远没有达到互联网图文、视频数据的数量级。

因此，一个更值得追问的问题是：具身智能的基础模型，是否也需要一种“前机器人数据”？

我的判断是：需要。而 ego 数据，也就是来自行动主体第一视角的多模态经验，很可能就是这块长期被低估的拼图。

总的来说，机器人数据教模型“怎么动”，ego 数据教模型“为什么这样动、什么时候动、动了之后世界会怎样变”。真正的具身基础模型需要两者合流。

一、具身智能为什么卡在数据 scaling 上

知识星球本周精选｜Ego 数据：具身 Scaling Law 缺失的一块拼图 —— 为什么 Ego 数据可能成为机器人基础模型 scaling law 的燃料图3

图 2｜Open X-Embodiment / RT-X 项目总览图。

语言模型的 scaling law 相对清楚：扩大参数、数据和计算，模型的预测损失会沿着相对稳定的规律下降。Chinchilla 之后，大家进一步意识到，模型大小和数据规模之间还存在计算最优配比。换句话说，LLM 之所以能持续变强，不只是因为模型更大，也因为它能吃到几乎无限扩展的文本 token。

具身智能的问题复杂得多。这里的 token 不只是文字，而是视觉、语言、时间、空间、动作、接触、力、物体状态、任务目标、记忆和反馈。一个机器人在厨房里“拿起杯子倒水”，表面上是几秒钟动作，背后包含大量隐变量：杯子是否能抓、杯口朝向、液体是否会溢出、手臂是否会碰到桌边、用户到底想要喝水还是清洗杯子、前面是否已经把水壶烧开。

这使得具身 scaling 至少有五个维度：

模型规模：VLA、策略网络、世界模型是否有足够容量。
数据规模：是否有足够多的轨迹、视频、场景和任务。
环境多样性：是否覆盖家庭、工厂、办公室、户外等真实分布。
embodiment 多样性：是否跨单臂、双臂、移动底盘、人形机器人、灵巧手。
反馈质量：是否包含成功、失败、纠错、偏好、专家点评和长期结果。

今天的机器人数据在动作维度上很珍贵，但在生活经验维度上仍然稀缺。Open X-Embodiment 汇聚了来自 21 个机构、22 种机器人 embodiment 的数据，RT-X 展示了跨机器人数据的 positive transfer；DROID 提供了 76k 条 in-the-wild 操作轨迹，覆盖 564 个场景和 84 个任务；AgiBot World 进一步把机器人轨迹规模推进到百万级。这些工作都说明一件事：机器人学习确实开始进入数据规模化阶段。

但它们也暴露了另一件事：即使机器人数据增长很快，它仍然是昂贵数据。每一小时真机数据都需要硬件、场地、人力、安全边界和后处理。相比之下，人类每天都在物理世界中行动：做饭、整理、修理、购物、运动、学习、协作。第一视角设备如果能够记录这些过程，就会形成一种更接近“互联网级 physical experience”的数据来源。

这就是 ego 数据的战略位置：它不是要替代机器人数据，而是改变机器人数据的边际价值。

更具体地说，ego 数据可能让具身模型在接触少量机器人动作标签之前，先通过大规模人类行动经验学会物理世界中的常识、意图、任务结构和状态变化。这样，机器人数据不再承担从零教会模型理解世界的全部责任，而更像是把已有的行动先验对齐到某个具体身体上。

二、Ego 数据到底是什么：不只是第一视角视频

知识星球本周精选｜Ego 数据：具身 Scaling Law 缺失的一块拼图 —— 为什么 Ego 数据可能成为机器人基础模型 scaling law 的燃料图4

图 3｜Ego4D 第一视角数据示例拼图

很多人把 ego 数据等同于“第一视角视频”。这只是最浅的一层。

在具身智能语境里，ego 数据应该被理解为行动主体的自我中心经验记录。它可以来自头戴相机、 AR 眼镜、胸前相机、手眼相机、机器人头部相机，也可以伴随音频、IMU、眼动、深度、3D 点云、手部姿态、身体姿态、物体轨迹、语言旁白、专家评论、任务阶段、失败标注和用户反馈。

它的特殊性不在于摄像头离眼睛近，而在于它记录的是“行动者如何经历世界”。

第三视角视频往往更清楚地看到全局，但它不知道行动者正在注意什么。互联网图片能告诉模型“这是杯子”，短视频能告诉模型“杯子被拿起来了”，但第一视角视频能暴露更细的过程：手伸出之前，视线先落到杯柄；拿杯子时手会避开热水区域；倒水前会确认杯口和水壶口的相对位置；动作失败后会停顿、调整、再试一次。

这些细节很难用一句 caption 概括，却正是具身智能最缺的东西。机器人不是在静态世界里回答问题，而是在部分可观测、连续变化、充满接触和遮挡的世界里行动。ego 数据的价值，就是把“看见”与“行动意图”天然绑定在一起。

这也是为什么 ego 数据不能只被放在视频理解领域里看。它本质上是人类行动经验的一种压缩表示。

三、从 Ego4D 到 EgoLife：ego 数据的技术演化

知识星球本周精选｜Ego 数据：具身 Scaling Law 缺失的一块拼图 —— 为什么 Ego 数据可能成为机器人基础模型 scaling law 的燃料图5

图 4｜Ego 数据从视频理解到具身基础模型数据底座的演化路径。

知识星球本周精选｜Ego 数据：具身 Scaling Law 缺失的一块拼图 —— 为什么 Ego 数据可能成为机器人基础模型 scaling law 的燃料图6

图 5｜Ego-Exo4D 数据集总览图，展示 ego/exo 多视角与多模态标注。

表 1｜代表性 ego 数据与具身智能价值

知识星球本周精选｜Ego 数据：具身 Scaling Law 缺失的一块拼图 —— 为什么 Ego 数据可能成为机器人基础模型 scaling law 的燃料图7

Ego 数据的发展，可以看作一条从“视频理解 benchmark”走向“具身基础模型数据底座”的路线。

第一阶段是 Ego4D 代表的大规模第一视角视频理解。Ego4D 的论文题目叫《Around the World in 3,000 Hours of Egocentric Video》，它把公开 egocentric video 的规模推到数千小时级，并设计了 episodic memory、hand-object interaction、audio-visual conversation、social interaction、forecasting 等任务。它的重要性不只是数据大，而是把第一视角理解从少数厨房、实验室场景推进到更广泛的日常生活。

第二阶段是 EPIC-KITCHENS、VISOR 等手-物交互数据集形成的精细操作理解路线。厨房场景看似窄，但对具身智能非常关键，因为它高频出现容器、工具、液体、遮挡、开合、切割、倒入、拿取、清洗等 manipulation 原语。很多机器人桌面操作任务，本质上都能在这些 ego 数据里找到人类版本的动作先验。

第三阶段是 Ego-Exo4D 所代表的 ego-exo 多视角、多模态采集。Ego-Exo4D 同步记录第一视角和多个第三视角，覆盖 1,286 小时视频、740 位参与者、123 个场景、13 个城市，并包含音频、眼动、3D 点云、相机位姿、IMU、语言描述、专家评论和技能评分。它解决了第一视角数据的一个结构性缺陷：行动者看到的东西很重要，但行动者的身体、全局姿态和环境布局经常被遮挡。ego-exo 同步让模型既能知道“我看到什么”，也能知道“我整个人在世界中怎么动”。

第四阶段是 Project Aria、Aria Digital Twin、Aria Everyday Activities、Nymeria 这类 AR 眼镜和 3D 真实世界数据。它们把 ego 数据从 RGB 视频进一步推进到可定位、可重建、可度量的 3D 世界。对具身智能而言，这一点非常关键。因为机器人最终不是在像素里行动，而是在有尺度、有几何、有接触关系的物理空间里行动。

第五阶段是 EgoLife 代表的生活级助手数据。EgoLife 的目标不只是识别动作，而是构建 egocentric life assistant：一个能陪伴用户、记住经历、回答问题、辅助决策的可穿戴 AI 系统。它把问题从“这段视频里发生了什么”推进到“在长期生活流中，我如何检索、理解、规划和帮助”。这和具身智能基础模型的长期目标非常接近：机器人也不应该只是执行 isolated task，而应该在长期环境里形成记忆和适应。

这条演化线说明，ego 数据正在发生一个范式转变：也就是说，ego 数据的终点不是更高的 action recognition accuracy，而是为 embodied foundation model 提供人类行动经验。

四、Ego 如何影响 VLA：从动作预测到意图理解

知识星球本周精选｜Ego 数据：具身 Scaling Law 缺失的一块拼图 —— 为什么 Ego 数据可能成为机器人基础模型 scaling law 的燃料图8

图 6｜OpenVLA 模型。

知识星球本周精选｜Ego 数据：具身 Scaling Law 缺失的一块拼图 —— 为什么 Ego 数据可能成为机器人基础模型 scaling law 的燃料图9

图 7｜Ego 数据如何补充 VLA 的 history、memory、intent 与 world prior。

表 2｜VLA/WAM 相关模型路线与 ego 数据接口

知识星球本周精选｜Ego 数据：具身 Scaling Law 缺失的一块拼图 —— 为什么 Ego 数据可能成为机器人基础模型 scaling law 的燃料图10

VLA，也就是 Vision-Language-Action model，是过去几年机器人基础模型最重要的路线之一。RT-2 的关键思想是把机器人动作也表示成 token，让视觉语言模型不仅能理解图像和指令，还能直接输出机器人动作。OpenVLA、π0、GR00T N1 等工作则进一步探索开源 VLA、flow matching 动作生成、人形机器人通用策略等方向。但 VLA 有一个容易被忽略的问题：它的名字里有 vision、language、action，却没有memory，也没有 intent。

如果一个 VLA 只看到当前图像和一句指令，它可以学到“把红色积木放进碗里”这样的短程映射。但真实场景往往不是这么干净。用户可能说“帮我继续刚才的事”，桌面上可能有多个相似物体，抽屉里可能有之前放进去的工具，某个动作是否合理取决于几分钟前发生过什么。更重要的是，很多动作不是由当前帧唯一决定的，而是由意图和任务阶段决定的。

Ego 数据能给 VLA 补上三种能力。

第一是第一视角感知分布。机器人头部相机、手眼相机、AR 眼镜看到的世界，都更接近 ego view，而不是互联网图片或第三视角视频。第一视角有强烈的运动模糊、遮挡、手部占据、近距离物体、局部视野和快速视角切换。如果模型没有在这种分布上预训练，它对真实机器人输入的鲁棒性会受限。

第二是 hand-object-affordance 先验。人类在 ego 视频里的手不是普通视觉元素，而是行动意图的显式指针。手伸向哪里，往往意味着哪里是可操作区域；手如何调整姿态，隐含了物体的抓取方式；手是否犹豫或重新定位，反映了接触不确定性。对 VLA 来说，这些都是比普通 caption 更接近动作的监督。

第三是语言与任务结构对齐。Ego-Exo4D 的专家评论、第一人称叙述、keystep 标注和技能评分，提供的不只是“一个人在做饭”，而是“这个动作为什么是关键步骤、哪里做得不熟练、下一步应该怎样改进”。这类数据对于从 instruction following 走向 skill learning 很重要。

因此，ego 数据对 VLA 的影响不是简单地多给一些视频预训练，而是让 VLA 从 reactive policy 走向intent-aware policy。 Ego 数据最擅长提供的，正是 history、memory、intent 和 world prior。

五、Ego 如何影响 WAM：从看见世界到预测世界变化

知识星球本周精选｜Ego 数据：具身 Scaling Law 缺失的一块拼图 —— 为什么 Ego 数据可能成为机器人基础模型 scaling law 的燃料图11

图 8｜EgoMimic 方法图：从 egocentric human videos 与手部轨迹桥接到机器人模仿学习。

知识星球本周精选｜Ego 数据：具身 Scaling Law 缺失的一块拼图 —— 为什么 Ego 数据可能成为机器人基础模型 scaling law 的燃料图12

图 9｜EgoMimic scaling 相关实验图。

如果说 VLA 解决的是“看到当前状态后该怎么动”，那么 WAM，或者更广义的 World Action Model，试图解决的是“动作会如何改变世界”。

这两者的差别很重要。一个 VLA 可以学成一个强大的条件动作生成器：输入图像和语言，输出末端位姿、关节动作或离散动作 token。但这并不保证模型真的理解了物理后果。它可能知道“把杯子拿起来”对应某种轨迹，却不一定知道杯子里有水时倾斜会洒，塑料袋会变形，抽屉卡住时需要先调整角度。

NVIDIA 对 World Action Model 的定义也强调，它不同于只直接预测动作的 VLA，而是同时建模世界如何变化以及 agent 如何通过动作塑造这种变化。DreamGen、Cosmos World Foundation Models、OA-WAM、X-WAM 等工作都指向同一个趋势：具身智能不能只做行为克隆，还需要能预测、想象和评估物理世界的演化。

这时 ego 数据的价值会更加明显。世界模型最需要的是大量状态转移。而第一视角人类视频天然记录了行动者造成世界变化的过程。拿起杯子之前，杯子在桌上；手接近之后，杯子被遮挡；接触发生后，杯子移动；倒水之后，水位变化；失败时，水洒出或杯子滑落。虽然 ego 视频没有机器人动作标签，但它有非常丰富的“世界变化标签”。

这对 WAM 特别有用。因为一个好的 WAM 不一定一开始就必须知道每个机器人关节如何控制，它可以先学习更抽象的 action-conditioned transition：推会让物体平移，拉会让抽屉打开，旋转会改变把手姿态，倒置会让容器内容物流出。之后，再通过机器人数据把这些抽象变化对齐到具体控制。

EgoMimic 是这条路线的一个早期信号。它不是只从人类视频里抽取高层意图，而是使用 Project Aria 眼镜采集 egocentric human videos 和 3D hand tracking，再通过跨域对齐与机器人数据共同训练。论文还报告了一个有意思的趋势：增加 1 小时额外手部数据，在某些设置下比增加 1 小时机器人数据更有价值。这个结果不应该被过度外推，但它至少说明，人类 ego demonstration 并不是只能做辅助标注，它有机会直接改变 imitation learning 的数据效率。

未来更强的 WAM 很可能会使用一种中间表示，把 ego 视频里的隐含动作翻译成机器人可用信号：**这条链路打通后，ego 数据就不再只是“观察人类”，而会成为机器人学习物理因果和任务结构的大规模预训练语料。 **

六、Ego 数据的优势：规模、真实、长时程、人类先验

Ego 数据之所以值得被放到 scaling law 的讨论里，是因为它具备机器人数据很难同时满足的四个优势。

首先是规模潜力。人类日常行动远比机器人操作更容易采集。随着 AR 眼镜、可穿戴设备、头戴式摄像头和轻量化传感器成熟，第一视角数据的增长速度可能远超真机机器人数据。当然，这里有隐私和授权问题，但从物理采集成本看，ego 数据天然更接近互联网数据的扩展逻辑。

其次是真实分布。仿真可以生成无限数据，但仿真世界很难完全覆盖真实生活中的混乱：桌面上的杂物、厨房里的水渍、衣服的褶皱、工具的磨损、人的犹豫、空间的狭窄、任务的临时变化。Ego 数据来自真实人类生活，保留了这些“长尾的不整洁”。对具身模型来说，这些不整洁不是噪声，而是未来部署时必然遇到的分布。

第三是长时程。很多机器人数据是几十秒到几分钟的短轨迹，而人类生活天然是小时级、天级甚至周级连续过程。EgoLife、EgoSchema、MM-Ego、Ego-R1 等工作把 egocentric video 推向长视频理解、记忆检索和复杂问答，这对于 embodied agent 非常关键。一个真正有用的家庭机器人，不能只知道当前帧里有什么，还要知道钥匙昨天被放在哪里、用户刚才为什么中断任务、厨房台面是否已经清理过。

第四是人类先验。人类不是随机探索世界，而是带着目标、常识、社会规范和身体约束行动。Ego 数据记录的是人类如何选择下一步，而不是物理世界所有可能变化的平均样本。这种偏置对机器人恰恰有用：它让模型学习哪些动作是自然的、经济的、安全的、符合人类期望的。

换句话说，ego 数据给具身模型提供的不是单纯视觉知识，而是一种“从人类行动者角度组织起来的世界知识”。

七、Ego 数据的限制：action gap、embodiment gap、隐私、标注与因果缺失

表 3｜Ego 数据的优势与限制：为什么它重要但不能单独解决具身智能

知识星球本周精选｜Ego 数据：具身 Scaling Law 缺失的一块拼图 —— 为什么 Ego 数据可能成为机器人基础模型 scaling law 的燃料图13

当然，ego 数据不是万能解药。它的问题同样尖锐。

第一个限制是 action gap。机器人学习最终需要可执行动作，而多数人类 ego 视频没有关节角、力矩、末端位姿、夹爪开合等标签。视频中看到“人拿起杯子”，并不等于知道机器人该如何控制电机。要把 ego数据变成机器人可学信号，必须经过 hand tracking、3D reconstruction、object pose estimation、contact inference、latent action learning 或 inverse dynamics 等中间步骤。

第二个限制是 embodiment gap。人的手、手腕、肩膀、躯干和视觉系统，与机械臂、夹爪、灵巧手、人形机器人都不同。人能用指腹微调，机器人未必能；人可以靠触觉和肌肉记忆完成动作，视频未必记录这些信号。越是精细操作，embodiment gap 越难跨越。

第三个限制是 partial observability。第一视角虽然接近行动者，但它看不到很多重要信息：身体姿态、手背后的接触点、被遮挡的物体、完整空间布局。Ego-Exo4D 之所以重要，正是因为单纯 ego view 不够，需要第三视角、3D 点云、IMU 和多模态数据补全。

第四个限制是隐私。连续记录第一视角生活，必然捕获人脸、家庭空间、语音、位置、社交关系、个人习惯和敏感行为。这个问题比普通图像数据更严重，因为 ego 数据不是偶然拍到世界，而是在长期记录一个人的生活。未来 ego 数据要规模化，必须依赖严格的授权、去标识化、本地处理、差分隐私、访问控制和数据治理。

第五个限制是标注成本。对具身智能真正有用的标注，不是“正在切菜”这种粗粒度标签，而是接触发生在哪里、工具是否正确使用、动作为什么失败、下一步子目标是什么、物体状态如何变化。这些标注难度远高于图像分类或普通视频 caption。

第六个限制是因果缺失。Ego 视频记录了结果，但未必区分相关和因果。一个人先看杯子再拿杯子，并不说明所有任务都需要先看杯子；一个动作成功，可能依赖看不见的触觉、力量或环境条件。WAM 如果直接从视频预测未来，也可能学到表面相关性，而不是可迁移的物理因果。

所以，ego 数据的正确用法不是“拿来直接训练机器人”，而是作为多源数据体系中的一环。它擅长提供人类行动经验和物理变化先验，但必须和机器人轨迹、仿真、合成数据、真实反馈共同使用。

八、未来数据配方：ego + robot + sim + synthetic + feedback

如果具身智能真的存在类似 scaling law 的规律，那么未来关键竞争不会只是“谁的模型更大”，而是谁能构建更好的数据配方。

在这个体系里，ego 数据的角色非常独特。它既不像互联网图文那样停留在语义层，也不像机器人轨迹那样昂贵稀缺；它位于二者之间，是人类物理经验与机器可执行动作之间的桥。

更具体地说，未来可能出现几类 ego-driven 数据飞轮。

第一类是可穿戴采集飞轮。AR 眼镜和生活助手在用户授权下记录日常操作，模型从中学习记忆、任务结构和物体可供性，再反过来提升助手能力。

第二类是机器人模仿飞轮。人类用第一视角设备自然完成任务，系统自动提取手部轨迹、物体状态变化和子目标，再用少量机器人数据进行 embodiment 对齐。

第三类是 world model 生成飞轮。Ego 视频训练视频世界模型，世界模型生成更多可控状态转移和失败案例，再用于训练 WAM 或策略模型。

第四类是 ego-exo 教学飞轮。专家执行技能时同步采集第一视角、第三视角、语音讲解和评分，模型不仅学习动作结果，还学习教学语言、错误诊断和技能评价。

第五类是真实反馈飞轮。机器人在真实环境中执行任务，失败片段被回流，系统再检索相似的人类 ego 经验或生成反事实训练样本，用于下一轮策略改进。

这类数据飞轮最终会改变 scaling 的含义。具身模型的 scaling 不会只是“更多轨迹”，而是“更多可对齐的物理经验”。

九、结论：机器人基础模型需要的不只是手，而是第一视角的生活经验

今天的 VLA 已经证明，视觉语言模型的知识可以迁移到机器人控制。RT-2 让 web-scale VLM 输出动作，OpenVLA 让开源社区拥有可复现的 VLA 基线，π0 用 flow matching 处理更复杂的连续动作，GR00T N1 把通用机器人基础模型推向人形机器人。与此同时，WAM 和 world foundation model 路线正在提醒我们：机器人不应该只学会“看到什么就做什么”，还应该学会预测动作如何改变世界。

在这个转折点上，ego 数据的重要性会被重新认识。

它不是视频理解领域的一个小分支，也不是 AR 眼镜应用的副产品。它可能是具身智能 scaling 中缺失的一类高密度经验数据。它把视觉、语言、手、物体、注意力、记忆、任务和结果压缩在同一个行动流里，让模型有机会从“旁观世界”转向“以行动者身份理解世界”。

当然，ego 数据不会单独解决具身智能。没有机器人数据，它无法落到具体控制；没有仿真和生成数据，它很难覆盖足够多的反事实和危险场景；没有人类反馈，它难以学会安全、偏好和规范。但它提供了一种机器人数据本身难以提供的东西：大规模、真实、长时程、带有人类意图的第一视角物理经验。

因此，未来的具身基础模型很可能不是单靠机器人遥操作数据训练出来的，也不是单靠互联网视频“看出来”的，而是由多种经验共同塑造。

如果说 LLM 的 scaling law 建立在文本 token 之上，那么具身智能的 scaling law 也许会建立在embodied experience token 之上。Ego 数据的意义，正是在于它让这种 token 第一次具有了接近互联网规模的可能性。

机器人基础模型需要的不只是更灵巧的手，也需要第一视角的生活经验。因为真正的行动智能，从来不是只知道如何移动身体，而是知道为什么行动、何时行动，以及行动之后世界会变成什么样。

-END-

Ask Me Anything｜提问箱

❝
对文章有疑惑，或想聊更深？欢迎把你的问题丢给我们：技术方案、实操踩坑、课程与资料、项目合作、职业发展，都可以问。
怎么问：在评论区留言，或私信公众号
我们会做什么：每周集中整理高质量问题并公开回复，重点问题邀请作者或嘉宾深度解答；典型问题会加入知识库并持续更新。
提问小提示：尽量说明「你的目标—当前做法—期望产出」，附上必要信息（硬件/软件版本、数据规模等），能更快获得有用答案。
一起把问题变成知识，推动社区进步 🚀