跨形态学习来了！轮式机器人的“经验”如何轻松传给双足机器人？

近年来，人形机器人技术突飞猛进，特别是基于视觉-语言-动作（Visual-Language-Action, VLA）模型的系统，已能够执行多种家务任务，展现出较高的可靠性和泛化能力。然而，一个长期存在的瓶颈问题限制了其进一步发展：双足人形机器人缺乏大量高质量、覆盖全身动作的演示数据。传统的远程操作数据收集方式成本高昂、效率低下，且往往局限于特定场景（如桌面操作），无法满足机器人在实际家庭环境中执行多样化任务的需求。

针对这一挑战，来自浙江大学、西湖大学等机构的研究团队提出了一项名为TrajBooster的创新框架：利用轮式机器人的丰富操作数据，通过轨迹重定向技术，大幅提升双足人形机器人的动作学习效率。该方法仅需极少量目标机器人的真实数据（10分钟），即可实现复杂的全身操控任务，显著增强了机器人的动作空间理解能力和零样本任务迁移能力。

▍TrajBooster的核心思想：以轨迹为通用语言的“跨形态”教学

TrajBoster的灵感源于一个关键洞察：尽管机器人形态各异，但它们完成任务时，末端执行器（如手或夹爪）在空间中的运动轨迹（Trajectory）是相对统一的。无论是轮式还是双足机器人，拿起一个杯子都需要让“手”沿一条类似的路径接近并抓取。

因此，TrajBooster将6D末端执行器轨迹（3D位置+3D旋转）作为一种与机器人形态无关的通用接口。它的整体流程是一个“真实→模拟→真实”的闭环：

源数据提取（真实）：从大规模的轮式机器人（如Agibot）操作数据集中，提取出语言指令、多视角视觉观察和对应的6D末端执行器轨迹。

轨迹重定向（模拟）：在仿真环境中，将这些轨迹作为目标，教目标双足机器人Unitree G1如何协调全身关节去追踪这些轨迹。

模型训练与微调（真实）：用生成的新数据预训练VLA模型，最后仅需采集少量目标机器人的真实数据对模型进行微调，即可部署到真实机器人上。

这样一来，轮式机器人数据中所蕴含的“任务知识”（即“做什么”和“何时做”）就通过轨迹这个中介，有效地传递给了双足机器人。而双足机器人需要学习的，是如何用自己独特的身体去执行这些轨迹。

▍TrajBooster如何实现精准的全身重定向？

整个过程最核心也最具挑战的一步，是如何在仿真中把一条轨迹转化为双足机器人稳定、可行的全身动作。

研究团队设计了一个分层控制模型，把复杂问题拆解成更易处理的小问题：

上层：逆运动学（IK）模块 - 负责手臂。它直接根据目标手腕位姿，计算出机器人臂部各关节应达到的角度。这是一个相对成熟且快速的计算过程。

重定向模型架构

下层：分层RL策略，负责腿部和平衡。这进一步分为两个子模块：

管理者（Manager Policy）：一个“决策脑”。它观察目标手腕的位置，并判断出为了够到该位置，身体需要如何移动：基座应该以什么速度（Vx, Vy, Vyaw）移动？躯干高度（h）需要调整到多少？例如，要拿取一个低处的物体，管理者会输出“降低躯干高度”和“微微前进”的命令。

执行者（Worker Policy）：一个“执行脑”。它接收管理者的速度和高阶命令，并将其转化为12条腿部关节的具体动作。这个策略通过强化学习训练，确保机器人能够稳定执行这些移动命令。

最终，整个模型以目标手腕位姿为输入，输出所有关节的动作指令，控制机器人完成追踪任务。

此外，研究者还设计了一种高效的“协调在线DAgger”算法，在平衡探索与记忆的同时，通过梯度下降优化策略，从而实现了比传统方法更精准、高效的轨迹跟踪性能。

▍从模拟到现实，两阶段训练让VLA模型“学以致用”

获得重定向数据后，下一步是教会VLA模型为双足机器人生成动作。

后预训练（Post-Pre-Training, PPT）：这是TrajBooster的创新一步。研究团队将重定向得到的动作数据与源数据中的语言和视觉观察组合，构成新的三元组⟨源视觉，源语言，目标机器人动作⟩。用这个合成数据集对一个预训练好的VLA模型（如GR00T N1.5）进行继续预训练。

其目的是让模型初步理解目标机器人（Unitree G1）的动作空间。它开始学习什么样的语言指令和视觉观察，对应着双足机器人的何种全身动作模式。

后训练（Post-Training, PT）：仅收集10分钟的目标机器人真实远程操作数据（目标视觉，目标语言，目标动作），对经过后预训练的模型进行最后的微调，以起到弥合“模拟到真实”差距的左右。让模型最终适应真实世界的视觉外观、物理动力学等细微差别。

这种做法的巧妙之处在于：耗时的“动作学习”阶段在仿真中低成本完成，真实数据只用于最后的“精准调校”，极大降低了数据收集成本。

▍实验结果：仅10分钟数据，实现全身操控新突破

实验在宇树Unitree G1双足人形机器人上进行，验证了TrajBooster的卓越性能：

加速动作空间适应：在“抓取米老鼠”、“整理玩具”等任务中，经过PPT+3K步PT的模型，其性能显著优于直接使用10K步真实数据训练的模型。而未经过PPT的模型在3K步训练后甚至无法有效学习，只在目标附近振荡。这表明PPT极大地加速了对新机器人动作空间的学习。

增强轨迹泛化能力：当目标物体被放置在训练时未见过的位置时，经过PPT的模型成功率（80%）远高于未经过PPT的模型（0%）。分析发现，未经过PPT的模型只是死记硬背了训练时的轨迹，而经过PPT的模型则真正理解了动作空间，能灵活生成新轨迹以适应新位置。

轨迹分析显示，（中图）未使用PPT 时，VLA 模仿远程操作运动（左图），从上方接近；而（右图）使用 PPT 时，VLA 则适应从下方抓取。

解锁零样本技能迁移：最令人印象深刻的是，经过PPT的模型能够零样本（无需任何额外训练）完成“传递水杯”这个在真实数据中从未见过的任务。这说明从轮式数据中继承的“递东西”的技能，已成功通过轨迹迁移到了双足机器人上。

TrajBooster代表了一条解决机器人数据稀缺问题的全新思路：跨形态共享与模拟增强。它不追求收集海量的同形态数据，而是巧妙地利用轨迹作为中介，将现有数据集的价值最大化，并通过模拟技术进行扩充和适配。

如需咨询企业合作事宜，欢迎联系机器人大讲堂-客服(19560423866，手机与微信同号)进行对接。

----------------END-------------------

工业机器人企业

服务与特种机器人企业

医疗机器人企业

人形机器人企业

具身智能企业

核心零部件企业

教育机器人企业

硅步机器人 | 史河科教机器人 | 大然机器人

加入社群

欢迎加入【机器人大讲堂】读者讨论群， 共同探讨机器人相关领域话题，共享前沿科技及产业动态，添加微信“robospeak2018”入群！

看累了吗？戳一下“在看”支持我们吧