一文读懂 Human2Humanoid：没有配对数据，也可以做动作重定向

点击下方卡片，关注“具身智能之心”公众号

人形机器人动作重定向的目标是把人类动作先验变成机器人能够执行的参考动作。

然而，这个过程需要面对一系列难点。人和机器人骨架拓扑不同、肢体比例不同、自由度不同，人的手脚能到的位置，机器人未必能用同样的关节配置到达；同时，高质量的人-机器人同步动作对很难大规模采集。

最传统的路线是逆运动学和约束优化。Ayusawa 和 Yoshida 的方法会同时优化形态参数和机器人动作，Penco 等人把全身重定向写成约束逆运动学和二次规划问题，GMR 则把非均匀局部缩放与约束优化结合起来，处理脚滑、自碰撞和物理不可行等问题。这类方法的优势是可解释、可直接写入物理约束；局限也很明显：目标权重、初值和单条动作调参都会影响结果。形态差异很大时，几何上可达的姿态可能已经偏离动作语义，例如步幅被压缩、手臂轨迹被挤到奇怪的位置，或者支撑相变得不稳定。

学习式方法试图从数据里学人到机器人的映射。S3LE 用自监督生成降低人工采集成本，但训练过程仍依赖成对的人类姿态和机器人配置；NMR 通过 Clustered-Expert Physics Refinement 生成物理一致的人-机器人动作对，tracking 质量更好，但换到新机器人形态时需要重建一套面向该机器人的数据构建和修复流程。论文特别指出，这种先过滤“机器人原则上能执行”的源动作、再修复目标动作的流程，会让学习到的映射偏向动态可跟踪动作，可能损失开放人类动作的多样性和细粒度语义。

动画和计算机图形学里已经有很多非配对重定向工作。Neural Kinematic Networks 用前向运动学层、循环一致性和对抗目标做无监督重定向；Skeleton-Aware Networks 用拓扑感知卷积、池化和反池化把同胚骨架编码到共享 latent 空间；Pose-to-Motion 用静态目标姿态作为先验；R2ET、ReConForM、MoReFlow 等进一步考虑几何、接触和生成式建模。、

这些工作证明了非配对动作迁移是可行的，但多数评测重点是视觉可信度。人形机器人还要求关节轨迹满足形态特定的关节限制、全身稳定性、离地间隙和脚部滑移抑制，这些约束不能只靠“看起来像”解决。

最近，看到了名为Human2Humanoid的工作，想分享下观点。

Human2Humanoid 的动机可以概括为两个耦合问题：一是严重形态差异下的语义保持，二是非配对学习下的物理可行性。只关注物理可行，动作语义可能被压扁；只关注分布或外观，生成动作可能不可执行。论文的方案是在非配对翻译框架里同时加入骨架拓扑先验和机器人执行约束。

论文标题：Human2Humanoid: Physics-Aware Cross-Morphology Motion Retargeting for Humanoid Robots
arXiv 链接：https://arxiv.org/abs/2606.03476

Human2Humanoid 把问题表达为一个非配对跨域迁移问题：人类动作域记作，机器人动作域记作，训练时只有两批互不对应的动作集合，没有帧级同步，也没有语义配对。为了承受这种非配对设定，论文采用 CycleGAN 式双向映射；为了承受人和机器人之间的形态差异，生成器使用 Skeleton-Aware GCN；为了承受机器人执行约束，训练目标里加入末端轨迹一致性、脚部接触、高度和关节限制。

Human2Humanoid 要学习从人类动作域到机器人动作域的映射，同时也学习反向映射。训练数据是两组非配对动作集合：

来自机器人动作域，来自人类动作域。二者没有时间同步，也没有帧级对应。训练时从两个集合中均匀采样固定长度时间窗口，用对抗损失、循环一致性损失和恒等损失做非配对翻译学习。

图中和都是 Skeleton-Aware Generator，判别器和分别判断机器人域和人类域动作是否真实。标准 CycleGAN 只需要对抗、循环一致性和恒等约束；Human2Humanoid 额外把源人类动作的前向运动学、接触线索和 T-pose 参考接入 B→A 方向，对生成的机器人动作施加末端一致性、接触一致性、高度和关节限制。这个设计说明论文真正关心的是人到机器人的可执行动作，而非双向翻译本身的视觉对称性。

生成器没有把所有关节特征直接展平成向量，而是用 SkeletonConv 在骨架图上聚合局部邻域信息。对关节，论文把一次骨架卷积写成：

这里是关节的输入特征，是关节聚合邻域后的输出特征；表示的相邻关节集合，表示卷积同时读取邻居和关节自身；是与关节对应的可学习权重，是偏置。这个公式的作用是让模型沿着骨架拓扑传播信息，例如髋、膝、踝之间的局部运动关系，而不是把动作看成一串没有结构的数值。

Skeleton-Aware Generator 包含编码器、latent 空间和解码器。编码端用 SkeletonConv 和拓扑池化压缩骨架特征，解码端用反池化和卷积恢复目标域拓扑。论文还说明，这些操作是在每个时间步的空间骨架图上进行，时间连续性则通过在运动序列上滑动窗口应用生成器来建模，从而鼓励帧间平滑过渡。它不要求两个域之间存在逐关节对应关系；跨域耦合主要由循环目标和一组共享语义末端来完成。

判别器是逐帧姿态判别器。输入姿态序列先经过关节共享的卷积和 LeakyReLU 得到特征张量：

是小批量大小，是 latent 特征维度，是时间窗口长度，是关节数。为了逐帧打分，模型把时间维折入 batch 维，得到。判别器有两条分支：一条是逐关节姿态分支，给每个关节单独预测真实度；另一条是全身姿态分支，把完整姿态特征展平后用多层感知机预测姿态级一致性，再广播回关节维。最终输出为：

控制逐关节分支的贡献，是广播后的全身分支输出。这样判别器既能看单个关节是否像目标域，也能看整个人体或机器人姿态是否整体协调。对抗目标不会压缩成一个标量，而是在关节和帧维度上保留打分，再对整个时间窗口求平均。

Human2Humanoid 的第一个核心约束是 Morphology-Invariant End-Effector Consistency Loss。直接在笛卡尔空间对齐人和机器人手脚位置很危险，因为 Unitree G1 这类紧凑人形机器人的手臂长度、腿长和整体比例都与人不同。若强行匹配绝对坐标，机器人可能为了到达人手的位置而产生语义崩塌，例如手够不到目标或身体姿态异常。

论文改为在相对 T-pose 的形态不变空间中对齐末端位移。给定源人类动作和生成机器人动作，用前向运动学计算末端在第帧的位置，再减去各自 T-pose 下的末端位置，并除以对应形态的身体尺度和：

是共享语义末端集合，论文指的是左右手和左右脚；是时间窗口长度；和分别是人类域和机器人域的 T-pose 配置；和是各自形态的身体尺度；表示对采样时间窗口求期望。这个损失不要求机器人手脚走到人类手脚的绝对坐标，而是要求“相对自身静止姿态的归一化位移轨迹”一致。它保留的是动作语义，例如抬手、迈步、蹲下时末端相对身体的运动模式。

第二组约束处理脚部接触。论文先从源人类动作推断脚是否接触地面。对脚和时间，二值接触指示为：

是脚部集合，是源人类动作中脚的速度，是一个小阈值。直观上，脚速度很低时被认为处于接触状态。随后，对生成机器人动作里的对应脚速度施加惩罚：

是生成机器人动作中脚的速度，用于尺度归一化，防止没有检测到接触时分母为 0。这个损失的含义很明确：当源人类动作显示脚处于接触时，目标机器人脚不应该继续水平滑动。

仅靠低脚速判断接触会误报，例如脚在空中短暂停住。论文又加入脚高过滤，得到站立期权重：

$$w^{(m)}(t) = c_B^{(m)}(t)\cdot \mathbf{1}\left( h_B^{(m)}(t)<h_{b,m}^{ref} \right).="" $$="" 是源人类脚的竖直高度，是人类域中根据 T-pose 预先计算的名义脚接触高度。这个过滤器的作用是去掉空中低速脚带来的虚假接触。基于这个权重，目标机器人脚的悬浮高度被惩罚：

是目标机器人脚高，是机器人域名义脚接触高度。ReLU 只在目标脚高于名义接触高度时产生惩罚，所以它主要抑制支撑期脚悬浮，而不是把所有脚部高度都压到地面。

第三个物理约束是关节限制。机器人关节有硬件范围，生成动作越界可能触发急停或损伤硬件。论文用 hinge 形式惩罚越界角度：

是关节索引，是生成机器人动作在第帧第个关节的预测值，和是该关节下限和上限。若预测值落在范围内，两项 ReLU 都为 0；若超过上限或低于下限，对应项才会产生惩罚。

非配对翻译部分使用 LSGAN。判别器损失为：

和是两个域的经验动作分布，表示机器人域判别器在第帧第个关节上的输出，同理。真实样本被回归到 1，生成样本被回归到 0，并且误差在所有帧和关节上平均。生成器的 LSGAN 目标则让生成样本骗过判别器：

循环一致性和恒等损失都用范数：

循环一致性要求动作翻译到另一个域后再翻回来，仍能回到原动作；恒等损失用于正则化，避免生成器在已经属于目标风格的输入上做过度变换。

完整生成器目标是：

各个是标量权重，用于平衡对应目标。生成器最小化，判别器最小化。这一组目标把三类要求合在一起：分布上像目标域、循环后仍保持动作内容、生成到机器人域时满足末端语义和接触物理。

实验使用两个非配对动作域。人类域来自 Motion-X，它提供 SMPL-X 格式的大规模 3D 全身人体动作；机器人域来自 PHUMA 的 Unitree G1 子集，PHUMA 通过物理过滤和优化减少脚滑、穿地等伪影。预处理时，两个域都重采样到 30 Hz；长序列用长度 64 帧、步长 1 帧的滑动窗口切成固定片段，因此相邻片段重叠 63 帧。Motion-X 的姿态被转成关节旋转矩阵，G1 关节数据也转成旋转矩阵形式，并加入根部相关特征。根部不使用绝对世界平移，而是用逐帧差分计算根部线速度，从而让输入对绝对位置平移不敏感；全局根旋转保留，不做 yaw 归一化。训练和测试划分在两个域内独立进行，训练时不使用时间同步或语义对应。

评测在 Unitree G1 仿真环境中进行，并使用 open-source humanoid-general-motion-tracking 项目的预训练 G1 tracking policy。这个 policy 固定不变，目的是让评测聚焦于不同重定向方法生成的参考动作是否容易被同一个控制器跟踪。基线包括 PHC retargeting、GMR，以及闭源的 Unitree Retarget 参考动作。Unitree Retarget 被当作工业质量参考，而不是可学习基线。

评测指标分为下游可控性和物理可行性。下游可控性包括 SR 和 TE：SR 是 rollout 在默认终止条件下不摔倒、不提前终止的片段比例；TE 是项目默认定义下的平均跟踪误差。物理可行性包括 FS 和 GP。FS 先用机器人脚几何体最小高度推断接触：

再统计接触期间水平速度超过阈值的帧比例：

论文使用，。是机器人脚高，是脚部水平速度。GP 衡量机器人脚平均穿地深度：

如果脚高低于地面，为正并计入穿地深度；如果脚在地面以上，则该项为 0。

主结果显示，Human2Humanoid 在平均 SR、TE 和 GP 上最强：平均 SR 为 88.5，高于 GMR 的 86.9、PHC 的 32.7 和 Unitree Retarget 的 71.2；平均 TE 为 0.12，低于 GMR 的 0.14、PHC 的 0.22 和 Unitree Retarget 的 0.19；平均 GP 为 0.05 cm，低于 GMR 的 0.12 cm、PHC 的 0.11 cm 和 Unitree Retarget 的 0.35 cm。FS 需要单独看，PHC 的平均 FS 为 1.4%，低于 Human2Humanoid 的 4.7%，但 PHC 的平均 SR 只有 32.7。论文由此强调，接触滑移指标单独变低并不代表参考动作整体可执行，因为一些动作可能已经难以被 tracking policy 稳定跟踪。

逐项看，Human2Humanoid 不是每个动作都压过所有方法。Walk1、Walk2、Hop1、Jump1 等项目上，它的 SR 低于或并列低于部分基线；Box2 上 GMR 的 SR 为 80.0，高于 Human2Humanoid 的 70.0；FS 上 PHC 在多项动作中更低。更关键的结论在平均可跟踪性和穿地抑制：Human2Humanoid 生成的参考动作整体更容易被固定控制器跟踪，同时显著减少地面穿透。

优化式基线的失败案例也解释了为什么单纯依赖显式优化并不稳。论文展示 PHC 在接近机器人关节限制时可能切换到不同局部解分支，产生不可跟踪的关节突变；GMR 在一些序列上需要逐条动作调参，否则会出现明显抖动。这类失败很难完全靠自动过滤排除。

定性对比中，Human2Humanoid 相比 PHC 和 GMR 给出更稳定的接触，穿地伪影更少。需要注意，这里展示的是视觉对比，真正支撑结论的是上面的 SR、TE、FS、GP 指标；图像主要帮助理解优化式方法在大形态差异下会出现的局部失败。

消融实验选用另一组评测动作，架构、训练流程和评测协议保持一致。去掉后，SR 从 92.8 降到 85.7，TE 从 0.099 升到 0.104，说明形态不变末端一致性对保留可跟踪动作语义有贡献。去掉和后，SR 同样为 85.7，TE 升到 0.106，FS 从 6.89% 升到 7.02%，GP 从 0.264 cm 升到 0.326 cm，说明接触和高度约束主要改善接触相关物理可行性，尤其是穿地抑制。

总结

Human2Humanoid 是一篇工程取向很强的工作。为了把人类动作 retarget 到人形机器人上，它没有把问题简化成单纯的姿态相似度匹配，而是把生成动作能否被控制器稳定跟踪、脚部接触是否可信、关节是否落在机械范围内，都写进训练和评测逻辑里。它并未声称彻底解决人到机器人的域迁移，但给出了一套目标分工清楚的组合：CycleGAN 负责非配对跨域迁移，Skeleton-Aware GCN 负责建模骨架拓扑，末端一致性负责维持跨形态动作语义，接触、高度和关节限制负责约束物理可行性。

横向来看，优化式方法可以显式施加约束，却容易受权重、初值和逐条动作调参影响；监督学习式或物理修复式方法能够得到高质量成对数据，但扩展到新机器人形态时，成本往往会转移到数据构建和物理修复流程上；动画领域的非配对重定向证明了循环一致性和结构先验的价值，只是多数目标仍偏向视觉可信。Human2Humanoid 的位置正在这几条路线之间：保留非配对学习的可扩展性，同时把机器人执行约束嵌入生成过程，让人类动作语义和机器人可执行性在同一个训练目标下被协调起来。

END