更为稳健,具备泛化!BumbleBee: 通用人形机器人全身控制范式

具身智能之心 2025-09-29 08:00

点击下方卡片,关注“具身智能之心”公众号


编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>

更多干货,欢迎加入国内首个具身智能全栈学习社区(戳我)这里包含所有你想要的。

导读

BumbleBee 提出了一条完整的人形机器人全身控制训练流程。首先,利用 AMASS 数据集训练基础的全身控制模型;在此基础上,通过聚类区分不同类型的动作,并分别训练相应的专家控制模型;随后,将这些专家模型部署到真实机器人上,采集执行轨迹;基于采集的轨迹序列,为每个专家模型训练对应的动作增量模型(delta model),以缓解仿真与现实之间的差距(sim-to-real gap);最后,利用知识蒸馏将经过微调的专家模型融合为一个更为稳健且具备泛化能力的通用控制模型。这一“基础—聚类—迭代—蒸馏”的流程,兼顾了动作多样性和现实适应性,为通用敏捷的人形机器人控制提供了一种新的训练范式。

  • 项目主页:https://beingbeyond.github.io/BumbleBee/
  • 论文链接:https://arxiv.org/pdf/2506.12779

Ⅰ. 创新点

  • 专家—通才训练范式:区别于直接训练单一通用策略的方法,BumbleBee 先通过动作语义与动力学特征进行聚类,分别训练专家控制策略,再将专家知识蒸馏为通用策略,从而有效缓解跨任务间的冲突。
  • 多模态自监督聚类:结合动作自编码器与文本语义对齐,同时引入足端接触与速度等显式腿部特征,使得如“跳跃、慢走、原地上肢动作”等不同动作类型能够在隐空间中区分。
  • 分簇的仿真-现实补偿:在 ASAP 框架的基础上扩展动作增量方法,为每个动作簇单独训练增量模型,相较于统一的通用增量模型更能有效消除类别差异带来的仿真-现实偏差。

Ⅱ. 方法

AE 聚类 —— 对经过 PHC 筛选的 AMASS 高质量动作轨迹(共 8179 段)进行处理。采用Transformer对动作序列进行编码,将 SMPL 关节轴角与根坐标转换为三维关节点位置,并删除冗余节点。同时,引入腿部相对速度和地面接触信号以增强动力学表征。并行地,利用 BERT 对 HumanML3D 数据集中的文本描述进行编码,实现动作与文本表征的对齐。最终,根据动作编码在表征空间中完成聚类。

专家学习 —— 首先在全数据上训练一个基础控制策略,作为专家模型的初始点。随后,针对聚类结果在各动作簇上分别微调,得到更具针对性的专家模型。接着,将专家模型部署到真实机器人上执行以采集轨迹,并基于这些轨迹为每个类别单独训练动作增量模型,再冻结增量模型对专家进行微调,实现对仿真与现实间偏差的补偿。通过迭代更新,专家模型在“更优策略—更高质量数据—更精准增量—再优化专家”的循环中逐步提升性能。

通才蒸馏 —— 在专家模型与动作增量模型收敛后,进入融合阶段。基于 DAgger 框架,同时蒸馏多个类别的专家模型,并在训练时调整数据分布以保持类别间的平衡,避免偏置。在模型结构上,采用 Transformer 作为通用控制器的骨干网络以增强时序建模能力。最终得到的通用策略在敏捷性与稳健性之间实现了较优平衡,并展现出优于单个专家模型或直接训练得到的通用模型的表现。

Ⅲ. 实验结果

1. 与基线对比

在更贴近真实动力学的 MuJoCo 平台上,BumbleBee 的成功率达到 66.84%,显著高于 Exbody2(50.19%),同时其他基线均低于 40%。在 IsaacGym 上,BumbleBee 在成功率、MPJPE 和 MPKPE 三个指标上也全面优于对比方法。

2. 聚类与专家作用分析

无专家直训(General Init)、随机分簇专家(Random)与 BumbleBee 的对比结果显示,在 MuJoCo 上三者成功率依次为 33.01%、35.36% 和 66.84%。结果表明合理的聚类与专家学习显著优于随机切分或直接训练通用模型。

3. 真实机器人实验

  • Iter 0(未经过动作增量模型微调):机器人无法保持稳定,落地失败并导致系统崩溃。
  • Iter 1:稳定性明显改善,但仍存在抬脚困难与身体抖动。
  • Iter 2:机器人能够平滑跟踪参考动作并维持整体平衡。

Ⅳ. 方法有效性的原因

  • 分布层面:不同动作簇(如跳跃、快走、原地上肢动作)在动力学与控制目标上存在差异,若直接混合训练会导致梯度冲突与探索受阻。通过分簇—专家—蒸馏,能够最大程度降低类间干扰。
  • 多模态聚类的腿部特征:引入足端接触与速度等关键特征,并结合文本语义对齐,使动作在潜在空间中被有效区分,这对强化学习尤为重要。
  • 分簇动作增量补偿:现实与仿真之间的偏差模式与动作类别高度相关。分类别训练动作增量模型,比训练通用的动作增量模型更能有效消除差异,避免不同类别之间的相互干扰。

更为稳健,具备泛化!BumbleBee: 通用人形机器人全身控制范式图1

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
机器人感知大升级!轻量化注入几何先验,成功率提升31%
先于特斯拉,千台订单在手!又一国产人形机器人开启规模量产
西安交大博士向港递交上市申请,拟冲刺“移动操作机器人第一股”!
锚定20万台需求,国际巨头打造“双模态”协作机器人抢先机
快讯|优必选获3000万元人形机器人订单,优艾智合冲刺港股“移动操作机器人第一股”,湖北荆楚人形机器人技术创新中心揭牌
具身智能 创造未来丨2025智能机器人与公共安全创新发展论坛在京成功举办
优艾智合拟赴港IPO;国内最大人形机器人训练场启用;8家具身智能创企融资
NeurIPS 2025 Oral!新国大提出机器人视觉语言导航方法Dynam3D,增强3D空间理解能力
“机器人天团”空降成都街头!2025成都国际数字文创季科技感拉满
2025工博会现场:库卡、安川、越疆、埃斯顿、节卡、思灵等20家机器人头部企业展览精彩盘点
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号