作者丨Yufei Xue等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
>>
更多干货,欢迎加入国内首个具身智能全栈学习社区:(戳我),这里包含所有你想要的。
在人形机器人技术飞速发展的当下,“专属训练” 与 “跨平台适配” 的矛盾始终制约着行业规模化落地。现有基于学习的全身控制器(WBC)虽能实现灵活、稳健的机器人行为,但大多针对单一机器人平台开发——每换一款形态、自由度或动力学特性不同的机器人,就需要重新进行大规模训练,不仅研发成本高昂,还严重影响技术迭代效率。
上海交通大学与上海 AI 实验室联合推出的 XHugWBC,创新性地构建了跨形态人形机器人控制框架,通过物理一致的形态随机化、统一的跨平台表征与智能策略架构,实现了 “一次训练、全平台通用” 的突破,单策略可零样本迁移至 7 款真实人形机器人与 12 款仿真机器人,彻底打破了传统控制方案的平台依赖壁垒,为人形机器人的标准化应用奠定了基础。

痛点直击:传统人形控制的 “跨平台魔咒”
人形机器人的形态异质性(自由度、关节布局、物理参数差异)与控制策略的通用性需求之间的矛盾,是行业长期面临的核心难题。现有全身控制方案均存在明显短板,难以实现规模化适配:
| 方案类型 | 典型局限 | 核心槽点 |
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
人类能通过经验快速适应不同工具,但传统机器人控制器却深陷 “一个平台一套策略” 的局限。这背后的核心原因在于:人形机器人的运动学结构、自由度数量、关节排序和物理属性差异极大,缺乏统一的表征方式;同时,跨形态训练需要高质量的多样化数据,而简单随机化难以生成符合物理规律的训练样本,导致策略无法学习到通用的运动先验。
关键技术拆解:通用控制的三大核心
XHugWBC 凭借 “数据生成-表征统一-策略学习” 的全链路创新,构建了完整的跨形态控制框架(如图 2 所示),从数据生成到最终部署形成闭环,每个环节都精准解决了传统方案的痛点。

物理一致的形态随机化:生成 “真实可用” 的多样化机器人
要让策略学习到通用的控制能力,首先需要高质量、多样化且符合物理规律的训练数据。XHugWBC 创新采用物理一致的形态随机化方法,彻底解决了传统随机化 “不真实、易失效” 的问题:
-
模板机器人参数化:以 Unitree G1(29 自由度)为基础模板,额外添加 3 个头部关节,定义包含连杆参数()和关节参数()的统一参数向量。其中,连杆参数涵盖质量、质心坐标、转动惯量等 10 个维度(, 为刚体数量),关节参数涵盖位置、姿态、运动轴、活动范围等 13 个维度(, 为自由度数量),确保随机化过程有章可循。 -
物理一致的连杆随机化:通过伪惯性矩阵 J 的正定性约束(J≻0)保证物理一致性,结合 Cholesky 分解将惯性参数转化为可平滑扰动的形式。再通过仿射变换与质量密度缩放,将惯性扰动映射为 10 维向量的无约束扰动——其中控制刚体沿三轴的伸缩,控制剪切变形,控制质心平移,控制质量密度缩放,既灵活又保真。 -
灵活的关节随机化:针对关节的旋转轴、位置、驱动力矩和驱动类型进行随机化:髋关节旋转轴随机排列,关节位置扰动限制在质心距离的两倍范围内,驱动力矩随机器人总质量线性缩放;同时可随机将腰、臂、头部关节设为固定或转动型,支持 12-32 个主动关节的灵活配置(从纯双足到带手臂、腰部的复杂形态)。
这种随机化方法生成的机器人模型既涵盖了广泛的形态差异,又严格遵守物理规律,为策略学习通用运动先验提供了坚实的数据基础。
跨形态统一表征:打通不同机器人的 “语言壁垒”
不同机器人的关节数量、布局差异巨大,直接适配难度极高。XHugWBC 构建了 “全局关节空间 + 运动学图” 的双层统一表征体系,实现了跨平台语义对齐:
-
32 维全局关节空间:定义 维的全局关节空间,涵盖髋、膝、踝、腰、头、肩、肘、腕等所有关键关节。对于任意机器人,将其物理关节按运动学角色映射到该全局空间,未用到的关节位置用零填充,形成固定维度的规范关节状态 。无论机器人的实际关节数量是 12 还是 32,策略都能接收统一维度的输入,彻底解决了状态空间异质性问题。 -
运动学图形态描述:基于全局关节空间构建有向运动学图,其中顶点 对应关节,边对应刚体连接关系。通过邻接矩阵 A 编码机器人的形态拓扑——若关节与 存在刚性连接,则 ,否则为 0。针对人形机器人常见的并联连杆结构(如踝关节),采用节点折叠简化处理,将并联节点直接作为前序关节的子节点,确保图结构简洁且能准确反映运动依赖(如图 2 (b) 所示)。这种图结构既能编码不同机器人的 kinematic 拓扑,又能为策略提供明确的结构信息。
智能策略架构:学习跨形态的运动先验
为了让策略能有效利用统一表征中的结构信息,学习到通用的运动先验,XHugWBC 设计了针对性的策略架构,涵盖观测设计、编码器选型、状态估计与动作解码等关键模块:
-
观测设计:策略观测包含三部分——五步本体感受历史(,含基座角速度、重力方向、关节位置 / 速度、上一步动作)、关节可控性二进制指标 (标记哪些关节可驱动)、全身命令向量 (含目标速度、姿态、步态参数)。这种观测设计既包含了机器人的实时状态,又明确了控制目标,同时通过历史信息缓解了部分可观性问题。
-
编码器架构:支持图卷积网络(GCN)和 Transformer 两种编码器,均能有效利用运动学图结构:
-
GCN 编码器:通过堆叠多层 GCN 网络,基于邻接矩阵聚合局部 kinematic 邻域信息,逐步构建高阶关系上下文,生成结构感知的节点特征。 -
Transformer 编码器:采用拓扑感知的混合掩码策略——第一层按运动学图施加掩码注意力,确保局部结构约束;后续层采用无掩码自注意力,实现全局信息交互。输入节点嵌入会添加学习到的位置编码 ,增强序列表征能力。 -
状态估计与动作解码:联合训练状态估计器,通过监督回归重构基座线速度、高度等特权信息(实机中难以直接测量),其输出与编码器特征、全局上下文向量融合后,通过线性层生成逐关节动作。生成的全局关节动作再通过逆映射函数还原到机器人物理关节,确保动作适配具体机器人的形态。
-
Critic 网络设计:Critic 网络镜像 Actor 结构但省略状态估计器,其解码输出每个关节节点的价值估计,最终价值通过节点平均得到。训练时,Critic 额外接收 pelvis 线速度、躯干高度等特权观测,确保价值估计的稳定性和准确性。
架构 ablation 实验(如图 6)显示,GCN 和 Transformer 因能利用运动学图结构,性能显著优于 MLP 基线 ——MLP 难以捕捉关节间的依赖关系,而 GCN 和 Transformer 能有效利用形态拓扑信息,学习效率更高。其中 Transformer 在复杂任务中表现更优,因此成为最终选用的架构。

实战检验:零样本迁移 + 高效微调的双重优势
XHugWBC 围绕四大核心研究问题(零样本泛化能力、微调效果、基线对比、架构有效性),在仿真与实机场景中开展了全面实验,验证了其通用性与实用性。
零样本跨平台控制:一次训练,全平台适配
-
仿真实验:单策略成功迁移至 12 款未参与训练的仿真机器人(涵盖 20-66kg 质量、0.95-1.8m 身高、12-32 个自由度),所有机器人均实现 100% 生存率(如表 1 所示)。

-
实机实验:零样本适配 7 款真实人形机器人(包括 Booster T1、Fourier N1、Unitree G1、Agibot X2 等),这些机器人的硬件设计、物理属性和运动学拓扑差异显著,但 XHugWBC 均能稳定完成 locomotion 任务,任务成功率 100%,与仿真结果一致。
-
长时域移动操作:在 “抓取毛绒玩具-开门-放置玩具” 的连贯任务中(如图 7 所示),机器人需要精准的手臂控制与全身姿态协调。XHugWBC 驱动不同形态的机器人均完成了该任务,展现出强大的 whole-body loco-manipulation 能力,证明其不仅能处理基础 locomotion,还能支持复杂的交互任务。

基线对比:性能碾压传统跨形态方案
将 XHugWBC 与 MetaMorph、MorAL 两款跨形态基线方案,以及朴素形态随机化(Naive Random)进行对比:
-
零样本生存率(如图 5):XHugWBC 达到 100%,而 MetaMorph 和 MorAL 的生存率显著降低 ——MetaMorph 依赖高维形态描述符,难以学习通用表征;MorAL 架构简单且缺乏形态特征输入,泛化能力差;Naive Random 仅能适配少数形态相似的机器人,多数情况下性能严重退化。

-
微调后性能(如图 3):MetaMorph-FT 和 MorAL-FT 的收敛速度仍慢于 Generalist-FT,且峰值性能始终低于后者。这表明 XHugWBC 的物理一致随机化与统一表征体系,能为策略提供更优质的通用先验,微调效果更优。

高效微调:通用先验加速专属优化
基于 XHugWBC 预训练的策略进行微调(Generalist-FT),展现出显著的效率优势:
-
训练曲线对比(如图 3)显示,Generalist-FT 在 12 款机器人上的收敛速度均远快于从零训练的专属控制器(HugWBC)和其他基线的微调版本(MetaMorph-FT、MorAL-FT)。在 20k 迭代时,Generalist-FT 已达到甚至超越专属控制器的收敛性能。
-
定量数据(如表 6)验证了微调效果:Booster T1 的线速度跟踪误差从微调前的 0.094±0.034 m/s 降至 0.027±0.009 m/s,优于专属控制器的 0.029±0.011 m/s;Agibot X2 的角速度跟踪误差从 0.168±0.014 rad/s 降至 0.095±0.027 rad/s,显著优于专属控制器的 0.101±0.012 rad/s。最终,Generalist-FT 的性能比专属控制器提升约 10%,证明预训练策略学习到的通用运动先验具有极高的适配价值。

定性分析:策略能 “读懂” 机器人形态
对 Transformer 输出的 latent 表征进行 t-SNE 可视化(如图 4),揭示了策略的学习机制:髋关节布局相似的机器人聚类在一起,腰部自由度数量(0-DoF、1-DoF、3-DoF)决定了聚类的圈层位置 ——0-DoF 机器人位于聚类中心,1-DoF 机器人形成中间环,3-DoF 机器人位于最外层;同时,机器人质量也会影响表征分布(箭头方向为质量递增)。这表明策略并非简单的端到端映射,而是真正学习到了机器人形态的结构化特征(关节布局、自由度数量、质量分布),为跨形态泛化提供了坚实基础。

总结:开启人形控制的 “规模化时代”
XHugWBC 的突破性价值,不仅在于首次实现了多款真实人形机器人的零样本全身控制,更在于其为行业提供了 “低成本、可扩展” 的通用控制方案——无需为每个机器人单独研发策略,大幅降低了人形机器人的应用门槛,推动行业从 “定制化研发” 走向 “标准化应用”。
其核心创新可概括为三点:一是物理一致的形态随机化,解决了训练数据的 “真实性” 问题,生成的多样化样本符合物理规律,为通用策略学习奠定基础;二是 32 维全局关节空间 + 运动学图的统一表征,解决了跨平台的 “语义对齐” 问题,让不同形态的机器人能被策略统一理解;三是 Transformer 混合掩码架构,解决了策略对形态结构的 “感知与利用” 问题,有效捕捉关节依赖与全局协调。
尽管 XHugWBC 已取得显著突破,但仍存在优化空间:目前依赖统一命令接口,在运动跟踪等更灵活的控制场景中,需要针对具体形态进行动作重定向,可能导致运动表征与机器人形态不匹配。未来,团队将探索形态感知的 expressive control,进一步拓展方案的适用范围。
作为兼具通用性与高性能的跨形态控制器,XHugWBC 为工业生产、服务机器人、医疗辅助等多元场景的规模化落地提供了可能。随着该技术的普及,科研机构、中小企业乃至个人都能更便捷地开展人形机器人研发,加速人形机器人从实验室走向现实应用的进程,真正开启人机协同的 “规模化时代”。