智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人

具身智能之心 2025-10-27 08:00




本文的主要作者来自悉尼大学、哈尔滨工业大学、香港科技大学、上海交通大学和北京智源人工智能研究院。

本文的第一作者为即将入学悉尼大学的博士生李哲,主要研究方向为具身智能和3D数字人。

本文的共一作者兼项目负责人为北京智源人工智能研究院研究员迟程。

本文的通讯作者为北京大学计算机学院研究员、助理教授仉尚航和悉尼大学副教授徐畅。

领域研究痛点:多阶段流程带来的信息损失

在虚拟世界中,自然语言可以轻松驱动一个3D数字人完成人们所描述的动作,于是人们将目光转向于现实,从3D虚拟数字人转向人形机器人。然而,自然语言虽为人形机器人提供了天然交互接口,但现有基于语言引导的人形机器人运动流程仍显臃肿且不可靠。

具体地,这类流程通常需经历三重环节:先利用动作生成模型生成动作潜表示并解码出人体运动,再将其重定向适配机器人形态,最后输入到策略中输出真实世界中的动作并通过基于物理的控制器进行轨迹跟踪。

然而,这种多阶段处理机制易导致误差累积、产生高延迟,并造成语义与控制之间的弱耦合。这些缺陷迫切要求我们建立一条从语言到动作的更直接路径。

核心突破:RoboGhost 如幽灵般地无形驱动

为了攻克这些难题,团队提出了Retargeting-free Humanoid Control via Motion Latent Guidance,又名RoboGhost,一个无需重定向的创新方案能够直接将人形机器人策略建立在语言驱动的运动潜在表征之上。团队将文本驱动的人形机器人运动看作一个生成任务,而不是简单地从本体信息以及目标动作开始的映射。

通过绕开显式的运动解码与重定向流程,RoboGhost使基于扩散模型的策略能够直接从噪声中解算出可执行动作,在保持语义完整性的同时,支持快速响应控制。连续自回归的运动生成器进一步确保了长时序运动的一致性,同时在稳定性与多样性之间取得平衡,最终生成能够精确驱动仿人行为的丰富潜在表征。

智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人图1
  • 论文链接:https://arxiv.org/pdf/2510.14952
  • 论文标题:From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance
  • 项目主页:https://gentlefress.github.io/roboghost-proj/

技术贡献:从动作生成到策略架构

  1. 动作生成框架:采用了混合Transformer-扩散模型的连续自回归架构,并采用LaMP作为文本编码器。该设计将长时序连贯性与随机稳定性相统一,从而生成富有表现力的运动潜在表征,并实现语言与运动间的精准对齐;
  2. 基于扩散模型的策略框架:提出了基于扩散模型的人形机器人策略,该策略以运动潜在表征为条件,能够直接从噪声中解算出可执行动作,并通过DDIM加速采样技术实现流畅多样、物理合理的运动表现;
  3. 实验证明的优势:通过大量实验验证 RoboGhost在提高策略的追踪性能同时,也大幅度降低了整个部署流程的时间成本。

核心方法:从映射问题到生成问题

团队设计了一个两阶段训练过程:

第一阶段:动作生成:采用连续自回归架构训练动作生成器,并为第二阶段学生策略提供motion latent作为条件;

第二阶段:策略训练:分为教师策略(RL)和学生策略(DAgger)。其中教师策略采用Mixture-of-experts(MoE)架构提高策略的泛化性;学生策略采用扩散模型架构,将第一阶段的预训练动作生成器的motion latent作为条件来引导运动的降噪过程。

智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人图2

在教师策略的训练中,为了提高模型的泛化性以及掌握更具挑战性和更长的运动序列,团队提出了因果自适应采样方法,将动作序列划分为 K 个等长时间区间,每个区间的采样概率根据经验性失败统计数据进行动态调整。  假设某一个env在第i个时间区间被done掉,则将提高前s个时间区间的采样概率。其中,离第i个区间越近,提高的概率越大。

推理阶段完全无需重定向且由潜变量驱动。在推理过程中,文本描述首先输入运动生成器,获得潜运动表征。其绕过了将该潜变量解码为显式运动序列的步骤,从而消除了对机器人进行运动重定向的需求。通过对学生策略采样随机噪声作为输入,并通过 AdaLN 将运动潜变量、本体感知状态和历史观测作为条件注入扩散模型中,生成可直接在物理机器人上可执行的动作。这一流线型流程不仅降低了复杂度,更有效缓解了因生成器能力有限导致的运动生成质量低下、重定向引发误差以及动作多样性不足等问题。

结果说话:增产降耗

该工作采用MotionUnion数据集的HumanML子集和Kungfu子集进行动作生成器的训练,并将其重定向到Unitree G1机器人上进行策略训练。测试阶段依然在这两个数据子集上进行。

团队在动作生成质量、成功率、部署时间、追踪误差等方面上进行了全面实验,结果如图(其中Baseline表示以多层感知机为架构的显式驱动策略):

智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人图3
智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人图4
智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人图5

为了验证策略的泛化性,团队在未见过的 MotionUnion子集(fitness、perform、100style、haa)中随机采样 10 个动作对两种策略进行测试。尽管运动生成器未在这些子集上训练,导致生成的潜变量并非最优,但基于扩散的策略仍然比多层感知机策略实现了显著更优的跟踪效果和鲁棒性。

智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人图6

实验结果表明,RoboGhost显著提高了动作的成功率,策略的泛化性并且大大降低了部署过程的时间消耗。此外,团队还展示了动作生成的结果,以及在仿真环境和现实环境中的效果图:

智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人图7
智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人图8
智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人图9
智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人图10

更多技术细节和demo视频欢迎查看论文和项目主页。

智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人图11

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人 驱动
more
全球首款能“拼”的机器人,在东莞诞生!
京东宣布未来五年采购300万台物流机器人
ChatGPT 上线「公司知识库」;Optimus 机器人因「手」再次延期;理想回应 MEGA 起火事件 | 极客早知道
智元办机器人挑战赛:清华&上海AILab夺冠,华南理工“单人成团”拿亚军
杀出重围!常州这家企业冲击港股,要抢“工业具身智能机器人第一股”,毛利率碾压同行!
井松机器人首款人形机器人即将亮相!
机器人业务放量,奥比中光前三季度营收增长超100%!未来5年产能将升至500万台!
再获近3亿元融资,这家“清华系”人形机器人创企要成为第二家「宇树科技」
元化智能首席科学家孟庆虎院士荣获Harashima大奖:中国大陆学者首次问鼎国际智能机器人及系统领域最高奖
机器人IPO狂飙:近30家企业竞速,繁荣还是虚火?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号