为什么“全身操作”这么难？北京人形等提出首个面向全尺寸双足人形的全身 VLA 框架

点击下方卡片，关注“具身智能之心”公众号

作者丨Shuanghao Bai 等
编辑丨具身智能之心
本文只做学术分享，如有侵权，联系删文

本文已发布到首个具身智能全栈学习社区：(戳我)，这里包含所有你想要的。

为什么人形机器人的“全身操作”这么难？

让机器人抬手抓住一个东西并不难，真正难的是在保持平衡的同时，还要调动上肢、腰部和双腿协同完成操作。

无论是搬箱、半跪拾物、边走边避障，还是在与人互动中完成倒酒，这些任务背后都不是单一关节的动作，而是全身协同、重心控制和连续决策的共同结果。可在很多现有机器人策略里，身体不同部位往往还是被分开处理、分开控制的。一旦任务进入高自由度、强耦合、长时序的真实场景，动作就容易卡顿、失衡，甚至在中途掉链子。尤其对于以视觉—语言—动作为核心的系统来说，光看懂场景、理解指令还不够，机器人还需要真正理解自己的身体，以及身体各部分如何在共享平衡与姿态约束下协同运动。

正是在这样的背景下，北京人形机器人创新中心联合西安交通大学、南开大学和北京大学的团队提出了 HEX（Humanoid-Aligned Experts）。它聚焦全尺寸双足人形机器人的全身操作，并首次将全身 VLA 框架系统性地落到这一场景中。

论文标题：HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation
论文链接：http://arxiv.org/abs/2604.07993
项目主页：https://hex-humanoid.github.io/

一句话理解 HEX：既要“看懂”，也要“会动”，更要“全身一起动”

HEX 采用高层 VLA 策略与低层 RL 全身控制器协同工作的层级架构。高层策略直接面向任务生成动作，负责上肢和手部控制，并将中间指令传递给低层控制器；低层控制器则以更高频率持续输出兼顾平衡性和动态可行性的全身动作。为了让这套协同机制更好发挥作用，HEX 在高层动作专家中引入了状态分支与视觉语义分支的动态门控，使模型能够在任务意图与身体可行性之间进行自适应平衡。

这也体现了北京人形这支技术团队的核心思路：人形机器人的全身操作，不能只当作视觉语义理解问题来处理，更关键的是如何统一建模身体状态、提前预测身体动态，并让这些信息与语义意图在动作生成过程中持续融合。

因此，HEX 并不只是把图像和文本直接送入动作头，而是把人形机器人的本体状态建模放在了更核心的位置。一方面，它用 VLM 负责视觉与语言理解；另一方面，又专门设计了统一的人形状态表示与未来状态预测模块，让策略在生成动作之前，就能够更早感知“身体接下来会如何变化、当前动作到底是否可行”。

为什么“全身操作”这么难？北京人形等提出首个面向全尺寸双足人形的全身 VLA 框架图1

核心亮点 1：跨本体的人形对齐状态表征，把不同机器人“翻译”到同一种身体语言里

现实世界中，不同人形机器人的关节定义、传感器配置和动作空间都不相同。为了让模型真正具备跨本体学习能力，HEX 的预训练汇集了 7 种人形本体、4 个数据源、超过 1200 万帧轨迹数据，覆盖具身天工 2.0、具身天工 3.0、Unitree G1/H1、AgiBot G1 平台以及 Leju Kuavo 等多种形态。

面对如此明显的本体差异，北京人形团队在 HEX 中选择先建立一套统一的人形身体表示。它将输入状态按照身体部位组织成规范身体部件槽位，例如左右臂、左右手、左右腿、头部、腰部，以及一个杂项槽位。这样，不同机器人虽然原始状态维度各不相同，但都可以先映射到同一个“人形身体语义空间”中，再在这一空间内完成状态预测与动作生成。换句话说，HEX 先为不同机器人建立了一套通用的“身体语言”，再让模型在这套语言里学会如何协调全身动作。

为什么“全身操作”这么难？北京人形等提出首个面向全尺寸双足人形的全身 VLA 框架图2

为什么“全身操作”这么难？北京人形等提出首个面向全尺寸双足人形的全身 VLA 框架图3

核心亮点 2：基于混合专家模型的统一自感预测器，让机器人学会“前瞻”自己的身体

光把状态统一起来还不够。人形机器人真正难的地方在于：身体各部位不是独立演化的，而是要随着时间一起变化。

为此，HEX 设计了一个统一自感预测器（Unified Proprioceptive Predictor, UPP），并在其中引入了混合专家模型（Mixture-of-Experts, MoE）。这个模块不只是“编码当前状态”，而是负责从当前身体状态出发，预测短时域未来状态，显式建模全身协调与时间动态。

更有意思的是，HEX 的混合专家模型并不是为了单纯增大模型规模，而是为了让不同身体部位、不同任务阶段以及不同本体形态的信息，动态匹配到更合适的专家。面对长程任务时，这种机制会随着阶段变化自动切换重点：例如在静态支撑、转身和前进等阶段，腿部通道会调用不同专家，以适应不同阶段的控制需求。

这意味着 HEX 不只是“识别现在身体是什么样”，而是在内部建立了一个关于身体未来演化的短时动力学预判器。

核心亮点 3：“回顾-前瞻”双通路，把历史视觉语义和未来身体动态同时纳入决策

北京人形团队在 HEX 中的另一个关键设计，是它的“回顾+前瞻”机制。

一方面，HEX 通过轻量级的历史查询缓存来提炼过去的视觉—语言上下文，不需要反复对整段图像历史进行重编码；另一方面，它借助 UPP 对未来状态进行预测，为动作生成提供前瞻性的动态信息。最终，这两路信息会在动作专家中进一步融合，让机器人在决策时既能结合过去，也能预判接下来怎么动。

换句话说，HEX 做动作时同时参考三件事：(1) 当前看到了什么、任务要做什么; (2) 过去刚刚发生了什么; (3) 如果现在这样动，身体接下来会往哪里走

这也是为什么它在复杂互动和长程任务里，比“只看当前视觉”的方法更稳。

实验结果：不仅能做，还能在复杂场景下做得更稳

在真实人形机器人验证方面，HEX 也做了较为系统的测试。系统分别在具身天工 2.0 和具身天工 3.0 两种平台上进行了实验，以检验其跨本体适配能力。数据采集则采用模块化遥操作方案：头部俯仰由程序控制，手臂和灵巧手通过同构遥操作接口操作，腰部和腿部则通过手柄完成控制。

1）常规任务：在代表性任务上拿到最优整体表现

在任务验证方面，HEX 覆盖了 7 个真实机器人任务，包括模仿人体姿态、根据人类指令向指定杯子倒酒、跟随人类协助搬运、行走避障、半跪拾物、整理桌面，以及取箱并打包物体等。整体来看，HEX 取得了最好的平均表现。比如在具身天工 2.0 平台上，模仿姿态和行走避障任务成功率达到 100%，在人类指令倒酒和协助搬运任务上分别达到 91.7% 和 83.3%；在具身天工 3.0 平台上，HEX 在半跪拾物任务上同样达到 100%，在整理桌面和打包等长程任务中也展现出与甚至优于强基线的方法表现。相比一些更擅长拟合 seen 轨迹、动作看起来更平滑的小模型，HEX 在大型模型中实现了更好的成功率与动作质量平衡。

根据人手指的方向倒酒

姿势模仿

避障

将箱子运输到另一个桌子

2）长程任务：长程任务中后段优势更明显

在长程箱体搬运任务中，机器人需要经历蹲下抓箱、转身、走到桌前、再蹲下放箱四个阶段。HEX 在所有阶段都拿到最优或并列最优表现，其中最后的放下箱子阶段达到 53.3%，高于最强基线的 40.0%，论文认为这反映出它在降低级联误差、维持长程执行稳定性方面更有优势。

3）泛化性：分布外扰动下依然更稳

在泛化能力测试中，HEX 进一步展现了面对复杂变化场景时的适应能力。围绕 4 个已见任务，团队设计了 8 类分布偏移场景，包括人类姿态切换加快、背景人物干扰、桌面视觉干扰物、瓶子位置变化、周围障碍变化、光照变化、目标物体替换以及动态位置变化等。

整体来看，HEX 在这些挑战场景中的平均成功率达到 61.8%，显著高于 π0.5 的 44.3%、GR00T N1.5 的 41.0% 和 SwitchVLA 的 22.4%。具体来看，在姿态模仿干预任务中，HEX 达到 85.7%；在强干扰场景的倒酒干扰任务中，基线方法几乎全部失效，而 HEX 仍取得了 53.3% 的成功率；在倒酒位置变化任务中，HEX 达到 55.5%；在半跪拾物任务中，HEX 则达到 100%。

姿势模仿+人类干扰

将方块放入箱子里+动态位置

这说明 HEX 不是只会“背训练轨迹”，而是在快反应、视觉干扰、物体变化和场景变化下都展现出更强鲁棒性。

为什么 HEX 值得关注？

北京人形团队这项工作的价值，不只是刷新了若干任务上的成绩，更在于它为人形机器人全身 VLA 提供了一条更完整的技术路径。它所回答的，不只是“机器人能不能做”，而是“机器人怎样才能稳定地做、协调地做，并且在不同本体上也能做”。

从这个意义上看，HEX 抓住了几个关键问题：仅靠视觉语义理解是不够的，身体状态不能被边缘化，不同身体部位之间的协同也需要被显式建模。基于此，HEX 将统一的人形状态建模、未来动态预测、历史视觉语义回顾与动作生成整合为一套系统化方案。最终，它在四个方面体现出清晰贡献：提出面向全尺寸双足人形机器人的全身视觉—语言—动作框架，提出跨本体的人形对齐状态表示与预测式状态预训练，提出“回顾+前瞻”范式，并在真实人形机器人基准上取得领先表现。

结语：让人形机器人不只是“会动手”，而是真正“会用全身”

从固定底座机械臂到全尺寸双足人形，机器人面对的问题早已不只是“能不能抓住”，而是能不能在重心不断变化、需要多人交互、任务链条更长的真实场景中，依然稳定、连贯、自然地完成操作。

北京人形团队通过 HEX 给出的答案是：要让人形机器人真正学会全身操作，模型必须先真正理解自己的身体。

当机器人不仅能够看懂环境、理解指令，还能提前预判自身的全身动态，并在语义意图与身体可行性之间持续做出平衡时，whole-body manipulation 才真正开始成为现实。HEX 正是在这一方向上，迈出了关键一步。