CoRL 2025 Oral：机器人模仿学习“教科书”，成功率最高提 44%，其他基线方法全失败？

CoRL 2025 Oral：机器人模仿学习“教科书”，成功率最高提 44%，其他基线方法全失败？图1

低成本、大规模的跨域模仿学习

当前，机器人模仿学习正面临一个核心瓶颈：成本高昂、环境覆盖有限，更在规模化面前显得步履维艰。如何有效弥合这一“人-机”跨域差距，充分释放人类行为数据的潜力，已成为模仿学习领域亟待攻克的核心挑战。

有没有一条更低成本、更高效率的路径？

在CoRL 2025入选口头报告的研究成果提出了一种全新的统一协同训练框架——EgoBridge。

该框架创新性地融合了最优传输理论与动态时间规整技术，在策略的潜在空间中精准对齐人机数据分布，同时保留关键行为序列的时序逻辑与动作关联性。

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？

欢迎关注【深蓝具身智能】👇

CoRL 2025 Oral：机器人模仿学习“教科书”，成功率最高提 44%，其他基线方法全失败？图3

方法概览

跨具身的训练到底怎么做的？

目前主流的方案是将多源数据进行融合，然后利用标准行为克隆损失对策略进行端到端的训练；然而，要从两种数据源头进行有效学习，需满足一个关键假设：

将人类观测和机器人观测投影到共享潜在空间，得到的潜在特征应该和动作的映射应该相同。

目前这些联合训练方法存在什么样的问题？

这些潜空间上的边缘分布会出现显著的协变量偏移，这种偏移源于两类数据源固有的域差距：

① 观测差距：人类与机器人的视觉外观、视角不同，比如：机器人有腕部相机，但人类数据中通常缺失；

② 运动学差距：人类与机器人的运动学特性差异也会导致行为分布偏移。

本文的研究目的是什么？

构建一个统一的协同训练框架EgoBridge，利用“机器人演示数据”与“第一视角人类演示数据”融合训练一个特征编码器，将"人类观测数据"与"机器人观测数据"均投影到共享潜在空间，然后再联合训练一个策略，将学习到的潜在表征映射成动作。

CoRL 2025 Oral：机器人模仿学习“教科书”，成功率最高提 44%，其他基线方法全失败？图4

从而实现两个关键层级的泛化：

观测泛化：去有效弥合视觉与传感器差距
行为泛化：学习到的编码器具备超越“人类-机器人配对数据场景”的泛化能力，能够有效迁移运动信息

EgoBridge的设计理念基础：最优传输，是什么？

简单来说最优传输就是比较几个样本空间概率分布的一套数学理论框架。

比方说给定2个样本空间，源空间分布S和目标空间分布T，以及一个成本函数C(S,T)，成本函数C是衡量从样本S空间传输到T空间下所需要的代价。

最优传输的目标是找到一个耦合关系，使得这种传输成本最小化。

关键创新点：基于最优传输的联合域自适应

为了融合机器人和人类这两类数据，解决两类数据固有的差距问题，需要摒弃传统的域自适应技术（这种技术通常仅对齐数据边缘的分布，因此可能丢失动作相关信息）。

EgoBridge 则以最优传输为基础，直接优化它们共享的编码器，实现对齐“编码器输出潜在特征”与“对应动作”的联合分布。

CoRL 2025 Oral：机器人模仿学习“教科书”，成功率最高提 44%，其他基线方法全失败？图5

▲说明｜利用人类与机器人之间固有的运动相似性，为潜在空间对齐提供监督。将此问题形式化为一个最优传输问题，对人类数据与机器人数据进行概率性映射。©️【深蓝具身智能】编译

具体来说就是：输入人类演示数据和机器人演示数据；

:观测数据，:演示动作，:人类，:机器人，用基于最优传输的损失函数去指导编码器学习，损失函数公式如下：

其中是耦合“第 i 个人类（潜在特征-动作）与“第 j 个机器人（潜在特征-动作）”的最优传输计划；

成本函数用于衡量这些联合实体之间的差异，最小化，促使编码器生成对齐人类和机器人潜在空间所需传输的最小成本：

即两个特征对应的动作在行为上相似时，成本最小。

CoRL 2025 Oral：机器人模仿学习“教科书”，成功率最高提 44%，其他基线方法全失败？图6

正是通过这种迭代过程，潜在特征空间被塑造成“对联合观测-动作跨域不变性”的空间。

EgoBridge最优传输的成本函数的设计思路是怎样的？

人类数据和机器人数据存在2个极大的差异，OT成本函数设计要解决2个最大的问题：

① 时间错位：人类与机器人执行同一任务的速度通常不同；

② 运动学差异：即使在“共享SE末端执行器动作空间”且“通过第一视角坐标系实现手眼对齐”的情况下，二者仍存在细微的运动学差异。

解题的思路是什么呢？答案是：DTW和软监督

给定两条长度相同的动作序列, DTW会寻找一个对齐路径, 使累积距离最小化。

▲说明｜为将动作信息融入最优传输过程，引入DTW，在一个数据批次中，DTW 会为每个机器人样本找到行为最相似的人类样本，这些的“伪配对样本”被用于降低最优传输中潜在特征的匹配成本，最终实现潜在特征-动作联合分布的对齐。©️【深蓝具身智能】编译

软监督

利用DTW识别人类与机器人中行为相似的样本对，接着基于这些相似性构建伪配对关系，然后在最优传输的成本函数中，对经过DTW判定的行为匹配样本对设置更低成本。

以此引导模型在学习过程中更关注这类具有潜在关联的样本，从而实现跨域知识的有效迁移与模型泛化能力的提升。

EgoBridge完整的框架结构

（1）联合训练：

EgoBridge将特征编码器与策略解码器进行联合优化：

对特征编码器应用联合最优传输损失，对编码器与解码器整体应用BC联合训练损失。

总损失公式如下：

CoRL 2025 Oral：机器人模仿学习“教科书”，成功率最高提 44%，其他基线方法全失败？图7

（2）数据集采集过程：

人类数据集

采集：采集者带上Meta Project Aria智能眼镜进行作业任务，同时采集第一视角RGB 图像、人体双臂笛卡尔位姿

处理：将手部位姿投影到第一视角相机坐标系下，生成“轨迹块”形式的动作序列，同时对本体感受数据做归一化

机器人数据集

采集：以Eve机器人为平台，用Aria眼镜模拟人类手眼配置采集第一视角图像，搭配腕部相机获近景RGB，通过遥操作记录机器人末端执行器位姿、关节状态

处理：将末端执行器位姿序列整理为“轨迹块”动作，对关节数据、动作做归一化，统一与人类数据的动作空间

（3）策略解码器架构：

CoRL 2025 Oral：机器人模仿学习“教科书”，成功率最高提 44%，其他基线方法全失败？图8

EgoBridge 带联合自适应的策略联合训练，编码器包含“模态特异性输入分支”与 “编码器主干”，策略包含“共享多块 Transformer 的解码器”，用于优化编码器, 用于优化整个网络。

CoRL 2025 Oral：机器人模仿学习“教科书”，成功率最高提 44%，其他基线方法全失败？图9

实验

实验内容及结果

论文中围绕EgoBridge框架的有效性验证开展了1项仿真实验和3项真实世界实验，具体内容如下：

（1）仿真实验：平面推T形物体任务（PushT）

CoRL 2025 Oral：机器人模仿学习“教科书”，成功率最高提 44%，其他基线方法全失败？图10

实验过程：

构建“人类-机器人”跨域场景：用蓝色圆形推杆模拟“人类源域数据”，粉色三角形推杆模拟“机器人目标域数据”，并通过改变背景颜色（白色→紫色）、T形物体初始构型（正常→镜像），模拟视觉外观与运动模式差异。

结果：

跨场景泛化优势显著：

在“紫色背景+镜像T形”的未观测场景中，EgoBridge成功率达39%，而其他基线（如Standard OT、MMD）成功率仅8%-14%，Target-only BC完全失败（0%）。

性能下降最小：

相比“白色背景+正常T形”的域内场景，EgoBridge在未观测场景中的性能下降仅14%，远低于其他基线（如Co-train下降17%、MMD下降31%）。

（2）真实世界实验1：抽屉操作任务

实验过程：

任务目标：机器人用机械臂抓取玩具，放入预打开的抽屉并关闭，共涉及6×4抽屉阵列（分4个象限）。

CoRL 2025 Oral：机器人模仿学习“教科书”，成功率最高提 44%，其他基线方法全失败？图11

结果：

行为泛化突破：

EgoBridge在“仅人类观测的第4象限”成功率达33%，而所有基线（如EgoMimic、ATM）均完全失败。

域内性能领先：

在机器人已观测的3个象限中，EgoBridge成功率47%，较Robot-only BC（9%）、Co-train（22%）分别提升38、25个百分点。

（3）真实世界实验2：咖啡勺取任务

实验过程：

机器人用左臂勺取咖啡豆，倒入目标容器（罐/研磨机），涉及场景与物体变化（原场景+罐→新场景+研磨机）。

CoRL 2025 Oral：机器人模仿学习“教科书”，成功率最高提 44%，其他基线方法全失败？图12

结果：

新物体泛化：

对“新容器（研磨机）”，EgoBridge成功率60%，较EgoMimic（53%）、Co-train（46%）提升7-14个百分点。

新场景+新物体泛化：

在“新场景+研磨机”的未观测场景中，EgoBridge仍保持27%成功率，而所有基线完全失败。

（4）真实世界实验3：衣物折叠任务

实验过程：

任务目标：机器人用双臂完成衬衫折叠（右袖→左袖→整体对折），涉及衬衫初始位置（50×22cm范围）、颜色变化，测试双模态协调与视觉泛化能力。

结果：

域内性能领先：

EgoBridge全流程成功率72%，较Robot-only BC（28%）、Co-train（33%）提升44、39个百分点，是所有基线中唯一突破70%的方法。

鲁棒性强：

在衬衫位置偏移（±30°旋转）、颜色变化场景中，EgoBridge阶段成功率（如右袖折叠）较EgoMimic提升19个百分点，无明显性能波动。

实验假设及依据

文章提出3个核心假设（H1-H3），均通过实验数据与分析验证，依据如下：

（1）假设H1：EgoBridge提升“人类-机器人共现场景”的共训练性能

依据：

仿真实验：在“白色背景+正常T形”的共现场景中，EgoBridge平均奖励0.76，成功率53%，较Co-train（奖励0.71、成功率48%）、MMD（奖励0.64、成功率45%）显著提升。

真实世界实验：抽屉任务共现场景（3个象限）：EgoBridge成功率47%，较Robot-only BC（9%）提升38个百分点；

结论：

EgoBridge通过最优传输（OT）对齐潜空间，解决了普通共训练的“潜变量分布偏移”问题，提升跨域知识迁移效率。

CoRL 2025 Oral：机器人模仿学习“教科书”，成功率最高提 44%，其他基线方法全失败？图13

（2）假设H2：EgoBridge实现“仅人类观测场景”的泛化（物体、场景、行为）

依据：

物体泛化（咖啡任务）：对“仅人类观测的研磨机”，EgoBridge成功率60%，其他基线（如ATM、MimicPlay）仅27%-33%。

行为泛化（抽屉任务）：“仅人类观测的第4象限抽屉”中，EgoBridge成功率33%，其他基线均为0%。

结论：

EgoBridge通过动态时间规整（DTW）构建行为相似伪对，使潜空间保留“动作相关信息”，实现对未观测场景的泛化。

（3）假设H3：EgoBridge学习到“人类-机器人任务相关对齐”的共享潜空间

依据：

潜空间可视化（TSNE分析）：EgoBridge的人类-机器人潜变量Wasserstein-2距离接近0，显著低于Co-train（7.642）、MimicPlay（10.55），表明全局分布对齐更优。

语义相似性验证（K近邻分析）：在抽屉、咖啡任务中，EgoBridge的潜空间K近邻对均对应“相同任务阶段”（如“抓取玩具”“勺取咖啡豆”），而Co-train、MimicPlay的近邻对常出现语义错位（如“抓取玩具”匹配“关闭抽屉”）。

结论：

EgoBridge的“OT+DTW”联合对齐机制，使潜空间同时满足“跨域分布一致”与“动作语义保留”，为知识迁移提供基础。

CoRL 2025 Oral：机器人模仿学习“教科书”，成功率最高提 44%，其他基线方法全失败？图14

总结

EgoBridge利用第一视角人类数据高效提升机器人操作能力。

该框架的核心创新在于，通过最优传输技术对齐人类与机器人数据的策略潜在空间，并结合动态时间规整构建行为相似的伪样本对，在对齐跨域分布的同时保留关键动作信息——

既解决了传统域适应方法忽略动作关联性的缺陷，又缓解了人类与机器人在视觉外观、传感器模态、运动学上的域差距。

从而实现人类与机器人数据的任务相关对齐，为跨域模仿学习提供了高效且通用的新方案。

编辑｜木木伞

审编｜具身君

Ref：

论文题目：EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data

论文地址： https://arxiv.org/pdf/2509.19626

项目地址：https://ego-bridge.github.io/

工作投稿｜商务合作｜转载

：SL13126828869（微信号）

>>>现在成为星友，特享99元/年<<<

CoRL 2025 Oral：机器人模仿学习“教科书”，成功率最高提 44%，其他基线方法全失败？图16

【具身宝典】｜｜｜｜

【技术深度】｜｜｜｜｜｜｜

【先锋观点】｜｜｜

【非开源代码复现】｜｜

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？‍

欢迎关注【深蓝具身智能】👇

CoRL 2025 Oral：机器人模仿学习“教科书”，成功率最高提 44%，其他基线方法全失败？图17

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成，希望各位遵守原创规则珍惜作者们的劳动成果。

投稿｜商务合作｜转载：SL13126828869（微信）

CoRL 2025 Oral：机器人模仿学习“教科书”，成功率最高提 44%，其他基线方法全失败？图18

点击❤收藏并推荐本文