1X公司发布全球首个统一RL控制器:NEO人形机器人获人类级移动能力

具身进化 2025-06-29 09:24

摘要

Abstract


1X公司开发了第一款通用、完全兼容 AI 和远程作的控制器,可解锁双足类人机器人可用的完整运动工作区。这将使他们能够训练 Redwood AI 充分探索房屋的整个状态空间:每个高低架子、每个角落和缝隙、每一层楼。他们将使用这些数据来制造一个前所未见的 AI。


对于在 NEO 的家庭环境中完成任务,并使我们的 Redwood AI 能够从尽可能广泛的物理交互中学习,能够完全不受限制地访问世界各地非常重要。我们最新的 RL 控制器为 Redwood 提供了一个完整的移动工具包,以访问世界,包括向任何方向自然行走、坐、站、跪、从地板上站起来、通过立体视觉上下楼梯。首次将所有这些功能整合到一个统一控制器中,是释放人形机器人全部潜力的一个重要里程碑。

将自然运动与全向转向联系起来

过去十年,腿式机器人运动取得了快速发展,主要由扭矩透明执行器、深度强化学习 (RL) 算法和 GPU 加速仿真驱动。使用现成的软件包和桌面 GPU,现在可以训练双足机器人在仿真中直立,并在一小时内遵循步行方向命令。尽管该策略完全在物理学只是现实世界的近似值的模拟环境中进行训练,但它根据如此多的随机物理参数(例如摩擦力、质量、传感器噪声)进行训练,以至于该模型最终对现实世界的物理参数具有鲁棒性。经过训练后,该步行控制器可以接收来自远程作员或 AI 模型(例如 Redwood)的步行方向命令,然后将这些高级方向转换为与世界的动态、接触感知交互。

除了行走和转动之外,Biped 还可以执行侧步。这对于在厨房的狭小空间或沙发和咖啡桌之间的空间导航非常有用,因为这些空间对于轮式底座机器人来说太小了。

然而,这些基本的步行 RL 控制器通常需要额外的“塑造奖励”,才能在各个方向上实现自然的类人步态。这些往往高度专门用于行走,这意味着必须对每个新行为重复相同的手动调整奖励过程。步态模式可以根据行走方向而变化,因此这通常需要基于运动方向的独特塑造术语。

有没有一种更具可扩展性的方法来增加控制器的能力,而无需为每个控制器提供手写的整形奖励?一种方法是从自然运动的人类那里收集动作捕捉参考,将它们重新定位到 NEO 的关节和身体,然后训练 RL 控制器以匹配这些运动学参考轨迹。

因为参考只指定了身体应该在哪里,所以 RL 控制器仍然需要弄清楚如何保持机器人稳定,同时“保持速度”并尽可能接近地跟踪参考轨迹。

使用这些技术,可以过度拟合策略以跟踪单个人体动作捕捉轨迹,并实现非常动态和流畅的动作,例如跳舞或行走。下面显示了自然运行和旋转的“单轨迹重放控制器”示例:

这些行为虽然优雅,但对于通用任务并不容易有用,因为它们只能重放单个轨迹。它们没有公开一个可纵的接口,像 AI 模型这样的高级策略可以通过该接口执行正确的作。如何从一个引用平滑过渡到另一个引用也不明显,因为动作捕捉数据集很少包含以任务为中心的任意运动之间的过渡行为,例如,从快速左右移动切换到跳跃运动。

为了处理多个轨迹,我们可以训练控制器遵循多个 mocap 引用,将编码的运动轨迹作为输入。然而,这种方法遇到了远程作 UX 问题:在测试时使用更有限的输入设备(如游戏手柄纵杆或 VR 控制器)如何提供高维运动轨迹并不明显。该模型在高维运动轨迹上进行训练,具有细微的节奏和周期性,但遥作提供的命令是粗粒度的,这导致 RL 控制器将其解释为不自然的步态。

如何实现可纵性和稳健性,同时仍然实现基于动作捕捉的 RL 训练的流畅性?我们开发了一个两阶段控制器,包括一个高级“运动规划器”和一个低级控制器,前者用于合成类似于人类运动捕捉数据的运动学目标,后者试图实现这些计划。

较低级别的 RL 控制器将身体姿势的运动学参考轨迹作为输入,它必须在保持平衡的同时尝试跟踪该轨迹。这与高级运动生成器模型配对,该模型通过监督学习进行训练,以将纵杆方向等输入命令转换为更丰富的运动轨迹。生成模型还起着在行为更改期间平滑过渡的作用。

楼梯

在家中拥有带腿的机器人的一个重要原因是要穿越楼梯。我们在控制器中开发了一种“楼梯模式”,它使用立体 RGB 视觉来推断 NEO 周围地板的高度。

为了优雅地爬上和爬下楼梯,NEO 的 RL 控制器必须在接触该台阶之前就预测到每个台阶的必要高度。与大多数使用飞行时间深度传感器或激光雷达来估计地板平面的人形机器人不同,NEO 的 RL 控制器完全基于视觉。深度直接从 RGB 立体对预测,这与 NEO 的本体感觉历史融合在一起,以弄清楚如何以及在哪里踏步。

楼梯并不总是被理想化的。通过仿真中的域随机化,控制器也足够强大,可以支持侧步和处理混合高度的楼梯。

下楼和起床

有许多家务活需要 NEO 长时间在地板上工作:去除地毯上的污渍、重新整理橱柜的底部抽屉、打包手提箱和分类袜子。我们扩展了 RL 控制器,使其能够安全地坐在、跪下和躺在地板上,以及从每个姿势中站起来。

Redwood x RL

控制器提供了一个“动作界面”,远程作或 Redwood AI 能够以安全、接触丰富的方式与物理世界进行交互。为了证明自然行走行为的可控性,我们对 Redwood 模型进行了微调,以执行足球运球任务。

这是 Redwood 与这个新的 RL 控制器的交互,它通过视觉预测全身关节目标和行走骨盆速度。然后,控制器将这些意图转换为腿施加的特定力,以沿球的方向行走。

结论

我们开发了第一款通用、完全兼容 AI 和远程作的控制器,可解锁双足类人机器人可用的完整运动工作区。这将使我们能够训练 Redwood AI 充分探索房屋的整个状态空间:每个高低架子、每个角落和缝隙、每一层楼。

然后,我们将使用这些数据来制造一个前所未见的 AI。

原文链接:https://www.1x.tech/discover/redwood-mobility

往期文章

π0.5:突破视觉语言模型边界,首个实现开放世界泛化的VLA诞生!

斯坦福&英伟达最新论文:CoT-VLA模型凭"视觉思维链"实现复杂任务精准操控

迈向机器人领域ImageNet,大牛PieterAbbeel领衔北大、通院、斯坦福发布RoboVerse大一统仿真平台

CVPR 北大、清华最新突破:机器人操作新范式,3.3万次仿真模拟构建最大灵巧手数据集

人形机器人四级分类:你的人形机器人到Level 4了吗?(附L1-L4技术全景图)建议收藏!

斯坦福最新论文:使用人类动作的视频数据,摆脱对机器人硬件的需求

爆发在即!养老机器人如何守护2.2亿老人?产业链+政策一览,建议收藏!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号