点击下方卡片,关注“具身智能之心”公众号
去年 8 月,我们写过一篇聊「第一视角人类视频」的文章。那会儿这还是个刚冒头的方向,几篇论文、几个 demo。但后面这段时间,趋势已经完全不一样了。
NVIDIA、伯克利、马里兰联手的 EgoScale,把 20,854 小时带动作标注的第一视角人类视频喂进一个 VLA,据论文披露,跑出了一条人类数据规模和验证 loss 之间的对数线性 scaling law——而且这个 loss 能预测真机表现。

半年之间,这个方向从「有几篇论文」变成了「有 scaling law、有融资、有世界纪录」。
热闹之下,去年那个老问题不但没解决,反而更该说清楚了:human-centric 和 ego 这两个词,一线还在混着用。 有人当成一回事,有人摆成对立路线。这篇算是往下再挖一层——把这两个词具体到数据采集和训练上掰开,再把这半年的新东西接进去。
先把判断甩前面:human-centric 和 ego 不在同一根轴上。 一个说「以谁为表征中心」,一个说「从哪个视角采」。真正决定一套方案好不好用的,不是这两个标签,而是它把机器人和人之间那两道 gap,放在了哪一端去消化——以及这半年多出来的第三个选项:干脆用生成模型,把 gap 直接翻译掉。
01
冲向人类数据,是被成本逼的
在掰词之前,得先讲大家为什么齐刷刷「向人类学习」。
答案很朴素:真机数据太贵。遥操作采一条机器人示范,要有机器人、有场地、有人一小时一小时地摇操作杆,成本压不下来,规模上不去。而具身这套逻辑的命根子是数据飞轮——模型是兵器,数据才是粮草。粮草不够便宜、不够海量,那个飞轮就转不起来。
人类数据是目前唯一看得见的、又便宜又海量的燃料。人天天在用手做事,网上有海量第一视角和第三视角视频,采一条人类示范的边际成本,比真机低一到两个数量级。
但人类数据有个天生的麻烦:它不是机器人产生的。 人和机器人之间隔着两道 gap:
一道是视角 gap:人做事时相机在哪、看到什么画面,跟机器人 onboard 相机的分布,可能差得很远。
一道是具身本体 gap(embodiment gap):人有一双灵活的五指手、一副和机器人完全不同的身体,人的动作没法直接变成机器人的关节指令。简单来说,「人这么动」和「机器人该怎么动」之间,还差一次翻译。
human-centric 和 ego 的所有区别,说到底都在回答同一个问题:这两道 gap,你打算在哪儿消化掉。
02
一个讲表征中心,一个讲视角
严格说,ego 是 human-centric 的一个子集——都在向人学。但业内把它们当成两种「方案」讨论时,指的是两种不同的 gap 消化策略。拆成两根独立的轴看最清楚。
第一根轴:以谁为表征中心。
human-centric 字面就是「以人为中心」:把人当作被完整采集、被建模的主体。外置多相机或动捕拍下人做任务的整个身体和手部姿态,用 SMPL / SMPL-X 参数化人体模型把人还原成 3D 骨架,再想办法迁到机器人身上。代表作,是从网络人类视频学动作的 Humanoid-X、Humanoid-VLA,以及一系列把人体全身动作重定向到人形机器人的工作(HumanPlus、H2O/OmniH2O 一脉)。特点是:人是主角,机器人是要被对齐过去的那一方。
第二根轴:从哪个视角采。
ego 把传感器直接放到行动者(actor)视角上——头戴 Aria 眼镜、腕部相机,甚至拿一个和机器人末端长得差不多的夹爪去采(UMI)。画面里主要是手和被操作的物体,第一视角,观测分布天然贴近机器人 onboard 相机。代表是 Ego4D/Ego-Exo4D、EgoDex、EgoMimic、EgoVLA。特点是:采集那一刻,就让「人看到的」逼近「机器人看到的」。
看出来了吗?
human-centric 说的是「采什么、以什么为中心」,ego 说的是「站在哪个视角采」。
它们不是一条路上的左和右,而是两根轴。
这半年冒出来的公司,恰好把这件事演成了活教材。
03
gap 提前消化,还是事后补课?
顺着上面这句看采集,两条路的分野一下就清楚了。
human-centric 这侧,采集追求「自由和完整」。
它不太在意采集时像不像机器人——反正 gap 留给后面。所以它可以第三视角外置相机、可以上动捕、可以直接爬网络海量人类视频,把人的全身长时序自然行为完整采下来。
好处很实在:设备约束小,人该怎么做事就怎么做事,还能拿到全身、移动、多物体交互这些丰富上下文。网络第三视角视频这条路,规模几乎无上限。代价是分布离机器人远——画面里有整个人、第三方视角、一双机器人没有的五指手,采得越全,后面要跨的 gap 越宽。
这里插一句它石。据其披露,WIYH 直接在酒店洗衣、超市装配、物流这些真实工作场景里采数据,自研套件同步 RGB、力触觉和手指关节位姿+末端轨迹,云端大模型自动标注(2D 语义、深度、任务分解、物体 affordance),成本比自建数采工厂低一个数量级以上。这是 human-centric「在真实场景采完整行为」思路的一个工程化样本——当然,说的成本和规模数字都来自厂商自述,跨到真实训练里的有效性还得看后续。
ego 这侧,采集追求「对齐」。
它把消化 gap 的活儿,提前放进硬件和采集协议。头戴 Aria 眼镜同步拿第一视角 RGB、3D 手部姿态和设备 SLAM 位姿;EgoDex 这种规模能给到逐帧 3D 手部 pose 加语言描述。UMI 更极致——手持一个两指夹爪采数据,腕部 GoPro 约 30Hz RGB、内置 IMU 到 200Hz,画面里那个末端本身就是个夹爪,连「五指手怎么变夹爪」这道具身 gap 都在采集时抹掉了大半。
打个比方:human-centric 像先把一个人完整录下来,回头再研究怎么让机器人模仿;ego 则是让采数据的人「假装自己就是机器人」,看机器人能看到的、做机器人能做的。
ego 的代价也清楚:设备有约束,人的行为被工具框住——拿着 UMI 夹爪就只能干夹爪能干的事,全身、移动、大场景上下文全丢了。
这也是为什么后来又冒出 Mobile UMI、MV-UMI 这些变体,把第三视角补回来(MV-UMI 论文,在几个需要理解大场景的子任务上补回第三视角能提升约 47%)。
一句话扣回主线:human-centric 用采集的自由,换了训练端的对齐负担;ego 用采集的约束,换了训练端的省心。
04
训练上从「retarget vs 直用」,到「怎么把人类数据变成可预测的燃料」
采集端埋的账,训练端要还。
这也是这半年变化最大的一块——原来是「两派各自对齐」,现在多了一整套「怎么把人类数据规模化」的方法论。
human-centric 的训练,重头戏还是 retarget 和跨域对齐。
因为采的是以人体为中心的表征(SMPL 骨架、手部关键点),训练绕不开重定向(retargeting)——把人的运动学映射到机器人自由度上,GMR、OmniRetarget 这类方法做的就是这件事。
简单说,把「人这么抬手」翻译成「机器人这些关节转多少度」。但翻译一定有损耗:身体尺度、肢体比例对不上,retarget 后步长、运动几何都会变形。加上视角 gap 也得在训练里对齐——mask 掉人体像素、做 domain adaptation,或者干脆把人类数据只当「世界知识 / 动作先验」。
ego 的训练,重头戏是收窄那道只剩一半的具身 gap。
视角 gap 采集时基本解决了,剩下主要是 hand 到 gripper:EgoMimic 用跨域对齐把手部和机器人数据揉一起 co-train(简单说,人类数据和机器人数据混在一个训练里同时学);HumanEgo 把每条示范抬升到「手—物交互」实体级表征,再训一个 flow matching 策略;EgoVLA 靠可穿戴设备的手部追踪做迁移。极端如 UMI,末端已是夹爪,动作几乎直接映射到机器人末端位姿,retarget 省掉一大半。
到这儿都还是去年那篇的框架。
真正的新东西,是这半年冒出来的三篇,把「人类数据怎么用」从手工对齐推进到了规模化范式:
1)ACE-Ego-0 解决的是「怎么让人类视频和机器人数据可比」。它搭了一条 ego 视频到动作的流水线,把原始人类视频转成机器人格式的伪动作轨迹(pseudo-action),再用统一动作表示(相机系动作、形态条件、时间对齐的 action chunking)把两边对齐。关键一招是可靠性加权——伪动作是有噪声的,它用一个 human auxiliary loss 让监督集中在靠谱的信号上。据论文,用 4.53K 小时机器人+仿真数据配 1.48K 小时伪动作人类数据,在 RoboCasa GR1 TableTop 和 RoboTwin 2.0 上做到 SOTA,并迁移到真实双臂。

2)Ego-Pi(Stanford/Meta,也被CVPR 2026收录)把问题往上抬了一层:人类数据迁的不只是动作,还有任务语义。它在 π0.5 上 co-train 人类+机器人数据,让一个多指人形学会分类逻辑、技能组合、按规则排序这些「没被显式教过」的高层行为。这补上了一个去年没讲透的点——人类数据不只是动作先验,还能当推理和语义的先验。

3)EgoScale 则给了这条路一个最想要的东西:可预测性。它在 20,854 小时人类视频上训 VLA,发现人类数据规模和验证 loss 之间是对数线性关系,而验证 loss 又能预测真机表现。这意味着人类数据从一种「玄学先验」,变成了一种有 scaling law、可以拿规模换性能的燃料——一个 22 自由度的灵巧手,据其展示已经能叠衣服、分卡片、用夹子夹水果。深度机智 PhysBrain 那套「千小时人类数据超万小时真机」的说法,如果成立,是同一件事在产业侧的回声。
所以两条路训练哲学上最本质的差别没变——human-centric 把人类数据当「知识」,ego 把人类数据当「示范」,一个信息全但要重译,一个信息窄但能直用。变的是:现在有了 ACE-Ego-0 这样的伪动作对齐、EgoScale 这样的 scaling law,人类数据这桶燃料,第一次有了「加多少出多少」的刻度。
05
被忽略的第三根轴:用生成模型,把视角直接翻译掉
去年有篇工作,我们把第三视角(exo)当成「ego 采集时丢掉、要在训练端补回来的上下文」。这半年有两篇工作,把这件事彻底翻了个面——exo 不只是要补回来的损失,它能反过来当 ego 的燃料源。
EgoExo-Gen(Ego-Exo4D、H2O 上验证)做的是跨视角视频预测:给一段第三视角视频、第一视角的首帧和一句指令,直接生成未来的第一视角画面,中间显式建模手—物交互(HOI)的时空对应。简单说,它能「看着别人第三视角怎么做,脑补出第一视角该看到什么」。
EgoExo-WM 更进一步,把 exo 喂给 ego 世界模型:从第三视角视频里恢复 3D 人体运动,当作动作;把转换出的第一视角画面,当作观测。于是海量、廉价、姿态清晰的第三视角视频,被翻译成了「带动作标签的第一视角世界模型训练数据」,据论文能同时提升预测质量和下游规划。
这是一根去年没画出来的轴。原来消化 gap 只有两个位置——采集端、训练端;现在多了第三个:用生成模型和世界模型,在视角之间直接做翻译。 视角 gap 不再是「提前消化」或「事后对齐」二选一,它可以被一个 diffusion 模型「生成」掉。
这根轴之所以要紧,是因为它把 human-centric 和 ego 各自的死穴同时松了绑:human-centric 丢不掉的第三视角,现在能转成 ego 观测;ego 拿不到的全身姿态,现在能从 exo 恢复。两边最缺的东西,被生成模型互相补上了。
06
三根轴上各自求最优,真问题始终是「对齐了什么」
写到这里,你大概能看出我们想表达什么。
把 human-centric 和 ego 摆成「谁取代谁」,是个假问题。它们的强项和代价恰好互补:
human-centric 强在规模和完整性——网络人类视频取之不尽,全身长时序上下文最全;代价是两道 gap 全压训练端,retarget 有损、对齐吃力。
ego 强在对齐和可直用——观测天然贴机器人,动作几乎不用重译;代价是采集受工具约束,丢了全身、移动和大场景上下文。
而现在跑在前面的工作,做的都是把不同的 gap 分到不同的位置去消化:能在采集端便宜消化的(视角),就用 ego 的方式提前消化(UMI);消化不掉、或消化了会丢信息的(全身、大场景),就在训练端补回来(MV-UMI、ACE-Ego-0),或者干脆用生成模型翻译回来(EgoExo-WM/Gen)。
EgoScale 和 Ego-Pi 又在另一头证明:只要对齐做对了,人类数据既能规模化(scaling law),又能传递语义(sorting logic)。这些都不是二选一,是在三根轴上各找最优解。
当我们说「让机器人向人学习」时,真正在做的,是一道一道拆解人和机器人之间的不对齐——视角对不上就换视角、生成视角,身体对不上就重定向,上下文丢了就补回来,噪声太大就加权。
human-centric 和 ego 不是两个阵营,是这道拆解题里,你选择先解哪一步、在哪一端解。
所以下次再看到一篇文章说自己「用了 ego 数据」或「以人为中心」,值得多问一句:你把哪道 gap 放在采集端消化了,哪道留给了训练,又有哪道交给了生成模型? 答案里,藏着这套方案真正的成本和上限。
