Human-centric 和 Ego 被混着叫了半年，今天把这两个概念掰开说。

点击下方卡片，关注“具身智能之心”公众号

去年 8 月，我们写过一篇聊「第一视角人类视频」的文章。那会儿这还是个刚冒头的方向，几篇论文、几个 demo。但后面这段时间，趋势已经完全不一样了。

NVIDIA、伯克利、马里兰联手的 EgoScale，把 20,854 小时带动作标注的第一视角人类视频喂进一个 VLA，据论文披露，跑出了一条人类数据规模和验证 loss 之间的对数线性 scaling law——而且这个 loss 能预测真机表现。

Human-centric 和 Ego 被混着叫了半年，今天把这两个概念掰开说。图1

半年之间，这个方向从「有几篇论文」变成了「有 scaling law、有融资、有世界纪录」。

热闹之下，去年那个老问题不但没解决，反而更该说清楚了：human-centric 和 ego 这两个词，一线还在混着用。有人当成一回事，有人摆成对立路线。这篇算是往下再挖一层——把这两个词具体到数据采集和训练上掰开，再把这半年的新东西接进去。

先把判断甩前面：human-centric 和 ego 不在同一根轴上。 一个说「以谁为表征中心」，一个说「从哪个视角采」。真正决定一套方案好不好用的，不是这两个标签，而是它把机器人和人之间那两道 gap，放在了哪一端去消化——以及这半年多出来的第三个选项：干脆用生成模型，把 gap 直接翻译掉。

冲向人类数据，是被成本逼的

在掰词之前，得先讲大家为什么齐刷刷「向人类学习」。

答案很朴素：真机数据太贵。遥操作采一条机器人示范，要有机器人、有场地、有人一小时一小时地摇操作杆，成本压不下来，规模上不去。而具身这套逻辑的命根子是数据飞轮——模型是兵器，数据才是粮草。粮草不够便宜、不够海量，那个飞轮就转不起来。

人类数据是目前唯一看得见的、又便宜又海量的燃料。人天天在用手做事，网上有海量第一视角和第三视角视频，采一条人类示范的边际成本，比真机低一到两个数量级。

但人类数据有个天生的麻烦：它不是机器人产生的。 人和机器人之间隔着两道 gap：

一道是视角 gap：人做事时相机在哪、看到什么画面，跟机器人 onboard 相机的分布，可能差得很远。

一道是具身本体 gap（embodiment gap）：人有一双灵活的五指手、一副和机器人完全不同的身体，人的动作没法直接变成机器人的关节指令。简单来说，「人这么动」和「机器人该怎么动」之间，还差一次翻译。

human-centric 和 ego 的所有区别，说到底都在回答同一个问题：这两道 gap，你打算在哪儿消化掉。

一个讲表征中心，一个讲视角

严格说，ego 是 human-centric 的一个子集——都在向人学。但业内把它们当成两种「方案」讨论时，指的是两种不同的 gap 消化策略。拆成两根独立的轴看最清楚。

第一根轴：以谁为表征中心。

human-centric 字面就是「以人为中心」：把人当作被完整采集、被建模的主体。外置多相机或动捕拍下人做任务的整个身体和手部姿态，用 SMPL / SMPL-X 参数化人体模型把人还原成 3D 骨架，再想办法迁到机器人身上。代表作，是从网络人类视频学动作的 Humanoid-X、Humanoid-VLA，以及一系列把人体全身动作重定向到人形机器人的工作（HumanPlus、H2O/OmniH2O 一脉）。特点是：人是主角，机器人是要被对齐过去的那一方。

第二根轴：从哪个视角采。

ego 把传感器直接放到行动者（actor）视角上——头戴 Aria 眼镜、腕部相机，甚至拿一个和机器人末端长得差不多的夹爪去采（UMI）。画面里主要是手和被操作的物体，第一视角，观测分布天然贴近机器人 onboard 相机。代表是 Ego4D/Ego-Exo4D、EgoDex、EgoMimic、EgoVLA。特点是：采集那一刻，就让「人看到的」逼近「机器人看到的」。

看出来了吗？

human-centric 说的是「采什么、以什么为中心」，ego 说的是「站在哪个视角采」。

它们不是一条路上的左和右，而是两根轴。

这半年冒出来的公司，恰好把这件事演成了活教材。

gap 提前消化，还是事后补课？

顺着上面这句看采集，两条路的分野一下就清楚了。

human-centric 这侧，采集追求「自由和完整」。

它不太在意采集时像不像机器人——反正 gap 留给后面。所以它可以第三视角外置相机、可以上动捕、可以直接爬网络海量人类视频，把人的全身长时序自然行为完整采下来。

好处很实在：设备约束小，人该怎么做事就怎么做事，还能拿到全身、移动、多物体交互这些丰富上下文。网络第三视角视频这条路，规模几乎无上限。代价是分布离机器人远——画面里有整个人、第三方视角、一双机器人没有的五指手，采得越全，后面要跨的 gap 越宽。

这里插一句它石。据其披露，WIYH 直接在酒店洗衣、超市装配、物流这些真实工作场景里采数据，自研套件同步 RGB、力触觉和手指关节位姿+末端轨迹，云端大模型自动标注（2D 语义、深度、任务分解、物体 affordance），成本比自建数采工厂低一个数量级以上。这是 human-centric「在真实场景采完整行为」思路的一个工程化样本——当然，说的成本和规模数字都来自厂商自述，跨到真实训练里的有效性还得看后续。

ego 这侧，采集追求「对齐」。

它把消化 gap 的活儿，提前放进硬件和采集协议。头戴 Aria 眼镜同步拿第一视角 RGB、3D 手部姿态和设备 SLAM 位姿；EgoDex 这种规模能给到逐帧 3D 手部 pose 加语言描述。UMI 更极致——手持一个两指夹爪采数据，腕部 GoPro 约 30Hz RGB、内置 IMU 到 200Hz，画面里那个末端本身就是个夹爪，连「五指手怎么变夹爪」这道具身 gap 都在采集时抹掉了大半。

打个比方：human-centric 像先把一个人完整录下来，回头再研究怎么让机器人模仿；ego 则是让采数据的人「假装自己就是机器人」，看机器人能看到的、做机器人能做的。

ego 的代价也清楚：设备有约束，人的行为被工具框住——拿着 UMI 夹爪就只能干夹爪能干的事，全身、移动、大场景上下文全丢了。

这也是为什么后来又冒出 Mobile UMI、MV-UMI 这些变体，把第三视角补回来（MV-UMI 论文，在几个需要理解大场景的子任务上补回第三视角能提升约 47%）。

一句话扣回主线：human-centric 用采集的自由，换了训练端的对齐负担；ego 用采集的约束，换了训练端的省心。

训练上从「retarget vs 直用」，到「怎么把人类数据变成可预测的燃料」

采集端埋的账，训练端要还。

这也是这半年变化最大的一块——原来是「两派各自对齐」，现在多了一整套「怎么把人类数据规模化」的方法论。

human-centric 的训练，重头戏还是 retarget 和跨域对齐。

因为采的是以人体为中心的表征（SMPL 骨架、手部关键点），训练绕不开重定向（retargeting）——把人的运动学映射到机器人自由度上，GMR、OmniRetarget 这类方法做的就是这件事。

简单说，把「人这么抬手」翻译成「机器人这些关节转多少度」。但翻译一定有损耗：身体尺度、肢体比例对不上，retarget 后步长、运动几何都会变形。加上视角 gap 也得在训练里对齐——mask 掉人体像素、做 domain adaptation，或者干脆把人类数据只当「世界知识 / 动作先验」。

ego 的训练，重头戏是收窄那道只剩一半的具身 gap。

视角 gap 采集时基本解决了，剩下主要是 hand 到 gripper：EgoMimic 用跨域对齐把手部和机器人数据揉一起 co-train（简单说，人类数据和机器人数据混在一个训练里同时学）；HumanEgo 把每条示范抬升到「手—物交互」实体级表征，再训一个 flow matching 策略；EgoVLA 靠可穿戴设备的手部追踪做迁移。极端如 UMI，末端已是夹爪，动作几乎直接映射到机器人末端位姿，retarget 省掉一大半。

到这儿都还是去年那篇的框架。

真正的新东西，是这半年冒出来的三篇，把「人类数据怎么用」从手工对齐推进到了规模化范式：

1）ACE-Ego-0 解决的是「怎么让人类视频和机器人数据可比」。它搭了一条 ego 视频到动作的流水线，把原始人类视频转成机器人格式的伪动作轨迹（pseudo-action），再用统一动作表示（相机系动作、形态条件、时间对齐的 action chunking）把两边对齐。关键一招是可靠性加权——伪动作是有噪声的，它用一个 human auxiliary loss 让监督集中在靠谱的信号上。据论文，用 4.53K 小时机器人+仿真数据配 1.48K 小时伪动作人类数据，在 RoboCasa GR1 TableTop 和 RoboTwin 2.0 上做到 SOTA，并迁移到真实双臂。

Human-centric 和 Ego 被混着叫了半年，今天把这两个概念掰开说。图2

2）Ego-Pi（Stanford/Meta，也被CVPR 2026收录）把问题往上抬了一层：人类数据迁的不只是动作，还有任务语义。它在 π0.5 上 co-train 人类+机器人数据，让一个多指人形学会分类逻辑、技能组合、按规则排序这些「没被显式教过」的高层行为。这补上了一个去年没讲透的点——人类数据不只是动作先验，还能当推理和语义的先验。

Human-centric 和 Ego 被混着叫了半年，今天把这两个概念掰开说。图3

3）EgoScale 则给了这条路一个最想要的东西：可预测性。它在 20,854 小时人类视频上训 VLA，发现人类数据规模和验证 loss 之间是对数线性关系，而验证 loss 又能预测真机表现。这意味着人类数据从一种「玄学先验」，变成了一种有 scaling law、可以拿规模换性能的燃料——一个 22 自由度的灵巧手，据其展示已经能叠衣服、分卡片、用夹子夹水果。深度机智 PhysBrain 那套「千小时人类数据超万小时真机」的说法，如果成立，是同一件事在产业侧的回声。

所以两条路训练哲学上最本质的差别没变——human-centric 把人类数据当「知识」，ego 把人类数据当「示范」，一个信息全但要重译，一个信息窄但能直用。变的是：现在有了 ACE-Ego-0 这样的伪动作对齐、EgoScale 这样的 scaling law，人类数据这桶燃料，第一次有了「加多少出多少」的刻度。

被忽略的第三根轴：用生成模型，把视角直接翻译掉

去年有篇工作，我们把第三视角（exo）当成「ego 采集时丢掉、要在训练端补回来的上下文」。这半年有两篇工作，把这件事彻底翻了个面——exo 不只是要补回来的损失，它能反过来当 ego 的燃料源。

EgoExo-Gen（Ego-Exo4D、H2O 上验证）做的是跨视角视频预测：给一段第三视角视频、第一视角的首帧和一句指令，直接生成未来的第一视角画面，中间显式建模手—物交互（HOI）的时空对应。简单说，它能「看着别人第三视角怎么做，脑补出第一视角该看到什么」。

EgoExo-WM 更进一步，把 exo 喂给 ego 世界模型：从第三视角视频里恢复 3D 人体运动，当作动作；把转换出的第一视角画面，当作观测。于是海量、廉价、姿态清晰的第三视角视频，被翻译成了「带动作标签的第一视角世界模型训练数据」，据论文能同时提升预测质量和下游规划。

这是一根去年没画出来的轴。原来消化 gap 只有两个位置——采集端、训练端；现在多了第三个：用生成模型和世界模型，在视角之间直接做翻译。视角 gap 不再是「提前消化」或「事后对齐」二选一，它可以被一个 diffusion 模型「生成」掉。

这根轴之所以要紧，是因为它把 human-centric 和 ego 各自的死穴同时松了绑：human-centric 丢不掉的第三视角，现在能转成 ego 观测；ego 拿不到的全身姿态，现在能从 exo 恢复。两边最缺的东西，被生成模型互相补上了。

三根轴上各自求最优，真问题始终是「对齐了什么」

写到这里，你大概能看出我们想表达什么。

把 human-centric 和 ego 摆成「谁取代谁」，是个假问题。它们的强项和代价恰好互补：

human-centric 强在规模和完整性——网络人类视频取之不尽，全身长时序上下文最全；代价是两道 gap 全压训练端，retarget 有损、对齐吃力。

ego 强在对齐和可直用——观测天然贴机器人，动作几乎不用重译；代价是采集受工具约束，丢了全身、移动和大场景上下文。

而现在跑在前面的工作，做的都是把不同的 gap 分到不同的位置去消化：能在采集端便宜消化的（视角），就用 ego 的方式提前消化（UMI）；消化不掉、或消化了会丢信息的（全身、大场景），就在训练端补回来（MV-UMI、ACE-Ego-0），或者干脆用生成模型翻译回来（EgoExo-WM/Gen）。

EgoScale 和 Ego-Pi 又在另一头证明：只要对齐做对了，人类数据既能规模化（scaling law），又能传递语义（sorting logic）。这些都不是二选一，是在三根轴上各找最优解。

当我们说「让机器人向人学习」时，真正在做的，是一道一道拆解人和机器人之间的不对齐——视角对不上就换视角、生成视角，身体对不上就重定向，上下文丢了就补回来，噪声太大就加权。

human-centric 和 ego 不是两个阵营，是这道拆解题里，你选择先解哪一步、在哪一端解。

所以下次再看到一篇文章说自己「用了 ego 数据」或「以人为中心」，值得多问一句：你把哪道 gap 放在采集端消化了，哪道留给了训练，又有哪道交给了生成模型？答案里，藏着这套方案真正的成本和上限。

END