远超基线模型!X-Humanoid:推动机器人从 “真实数据” 向 “虚拟合成 + 互联网数据” 转型

具身智能之心 2025-12-08 09:09

在 embodied AI 领域,视觉 - 语言 - 动作(VLA)模型与世界模型的发展虽展现出通用自主能力的巨大潜力,却始终受限于核心瓶颈——大规模、多样化机器人训练数据的稀缺。现有解决方案要么依赖成本高昂的真实机器人数据采集,要么通过简单叠加机器人部件编辑第一视角人类视频,均无法应对第三人称视频中的全身复杂动作、动态背景与严重遮挡问题。

新加坡国立大学 Show Lab 提出的 X-Humanoid 框架,以 “数据合成 - 模型适配 - 大规模生成” 为核心逻辑,首次实现第三人称人类视频到类人机器人视频的高质量转化,为机器人训练提供了全新的数据生成范式。

论文题目:X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale

项目链接:https://showlab.github.io/X-Humanoid/

作者单位:新加坡国立大学 Show Lab

远超基线模型!X-Humanoid:推动机器人从 “真实数据” 向 “虚拟合成 + 互联网数据” 转型图1

问题根源:机器人数据稀缺的三大核心矛盾

要破解机器人训练数据困境,需先明确现有方案与真实需求的根本性矛盾,这是 X-Humanoid 设计的逻辑起点:

数据规模与采集成本的矛盾

真实机器人数据的采集不仅需要昂贵的硬件设备,还需耗费大量人力进行场景布置与动作设计,导致数据规模有限且场景单一。而互联网上的人类活动视频虽存量巨大(如 Ego-Exo4D 数据集含数千小时视频),却因 “人类 - 机器人视觉形态差异” 无法直接使用,形成 “数据富矿” 与 “可用数据短缺” 的鲜明对比。

编辑能力与场景复杂度的矛盾

现有 “机器人化” 方案多针对第一视角视频,通过规则化叠加机器人手臂替换人类肢体,但这种简单的 “涂抹 - 叠加” 技术在第三人称场景中完全失效——第三人称视频涉及全身复杂动作、动态背景交互与严重遮挡,传统方法难以处理关节运动一致性、环境 occlusion 等关键问题,生成结果常出现肢体变形、动作错位等 artifacts。

模型适配与任务需求的矛盾

现有视频编辑模型多支持图像条件下的视频生成,缺乏针对 “人类 - 机器人转化” 的专项优化:要么无法保证动作与原始视频的严格对齐,要么会篡改背景信息,导致生成的机器人视频因 “运动不一致”“形态不精准” 无法满足 VLA 模型与世界模型的训练要求。

方案设计:X-Humanoid 的三层技术闭环

针对上述矛盾,X-Humanoid 构建了 “合成数据生成 - 模型适配优化 - 大规模视频转化” 的三层技术闭环,各环节层层递进,确保从数据到模型再到应用的全链路有效性:

远超基线模型!X-Humanoid:推动机器人从 “真实数据” 向 “虚拟合成 + 互联网数据” 转型图2

第一层:数据合成——构建大规模配对训练数据集

解决 “无配对训练数据” 的核心矛盾,X-Humanoid 利用 Unreal Engine 设计了可扩展的数据生成流水线,将社区资源转化为高质量人类 - 机器人配对视频:

  • 骨骼对齐:通过手动 IK 骨骼重定向技术,解决不同角色(人类 / 机器人)与动画资产的骨骼不兼容问题,确保同一动作可跨角色复用;
  • 动作迁移:将单一运动动画烘焙到所有人类和机器人角色上,保证配对视频中的动作完全一致;
  • 场景录制:在 14 个多样化虚拟场景中,通过相同的相机参数(焦距 14-80mm、光圈 f/2.8-f/5.6)和运动轨迹录制视频,刻意融入遮挡、偏心构图等挑战性条件,提升模型鲁棒性。

最终生成 17 小时以上的 1080p 30fps 配对视频,含 280 万帧数据,仅需 10 天即可在单张 NVIDIA RTX 3060 GPU 上完成渲染。

第二层:模型适配——视频到视频的生成架构优化

为实现 “动作精准对齐、背景完整保留” 的核心目标,X-Humanoid 对强大的 Wan 2.2 扩散 Transformer(DiT)模型进行专项适配:

  • 输入输出设计:将模型改造为视频 - 视频架构,输入人类活动视频,输出机器人替换后的视频,严格保证每帧动作对齐;
  • tokens处理机制:将输入视频编码为条件tokens,与生成tokens拼接后输入模型,通过单向掩码防止条件tokens被生成过程污染,确保背景等原始信息不被篡改;
  • 微调目标:采用流匹配微调策略,训练模型预测从噪声到干净潜tokens的速度向量,通过均方误差损失优化,仅使用 6.4% 的合成数据即可完成 LoRA 微调。
远超基线模型!X-Humanoid:推动机器人从 “真实数据” 向 “虚拟合成 + 互联网数据” 转型图3

第三层:大规模转化——释放互联网视频的数据价值

将微调后的模型应用于真实世界视频,完成从 “合成训练” 到 “真实应用” 的落地:

  • 数据处理:将 Ego-Exo4D 数据集的 60 小时视频下采样至 15fps,调整为 864×400 分辨率,分割为 6 秒(90 帧)的片段;
  • 批量生成:通过模型处理生成 360 万帧机器人视频,形成大规模机器人化数据集,可直接用于 VLA 模型与世界模型训练;
  • 复杂场景适配:成功处理含运动模糊、镜头切换、黑边等复杂效果的互联网视频,展现出强大的真实场景适应性。

验证逻辑:从定量到定性的全面性能验证

X-Humanoid 采用 “定量指标 + 用户研究 + 消融实验” 的递进式验证逻辑,全面证明方案的优越性:

整体性能:碾压现有基线模型

在合成数据集上,通过 PSNR、SSIM、MSE 三大指标评估,X-Humanoid 表现远超 Kling、MoCha、Runway Aleph 等基线模型:

远超基线模型!X-Humanoid:推动机器人从 “真实数据” 向 “虚拟合成 + 互联网数据” 转型图4
  • PSNR 达 21.836 dB(基线最高为 MoCha 的 17.683 dB),SSIM 达 0.671(基线最高为 Runway Aleph 的 0.402),MSE 低至 459.302(基线最低为 MoCha 的 1295.640);
  • 在 29 名计算机视觉 / 机器人领域参与者的用户研究中,69.0% 的用户认为其运动一致性最佳,75.9% 认可其背景一致性,62.1% 肯定其机器人形态准确性,62.1% 偏好其整体视频质量。

定性对比:解决基线模型核心痛点

  • 运动一致性:MoCha 虽能维持部分动作,但常出现手臂形状错误、腿部姿势偏差;Kling 则存在动作不同步问题(如将绿色袋子掉落而非放回),而 X-Humanoid 完全复刻原始人类动作;
  • 形态准确性:基线模型难以还原机器人肩颈、腿部关节细节,X-Humanoid 能精准复现特斯拉 Optimus 机器人的关键形态特征;
  • 背景保留:Kling 会额外生成 faucet、窗户等无关元素,X-Humanoid 则完全保留原始场景信息,符合 “仅替换主体、不篡改背景” 的核心需求。
远超基线模型!X-Humanoid:推动机器人从 “真实数据” 向 “虚拟合成 + 互联网数据” 转型图5

消融实验:验证核心设计的必要性

远超基线模型!X-Humanoid:推动机器人从 “真实数据” 向 “虚拟合成 + 互联网数据” 转型图6
  • 模型架构选择:对比 VACE 1.3B、VACE 14B 与 X-Humanoid 5B/14B 模型,X-Humanoid 5B 不仅性能最优(PSNR 21.836 dB),且训练 / 推理效率远超 14B 版本(每帧训练时间 0.10s vs 1.05s,推理时间 5.00s vs 69.16s);
远超基线模型!X-Humanoid:推动机器人从 “真实数据” 向 “虚拟合成 + 互联网数据” 转型图7
  • 微调步数优化:2500 步微调为最优选择。

局限与未来方向:基于现有框架的延伸优化

X-Humanoid 作为第三人称视频机器人化的开创性工作,仍存在可提升空间,其局限也指向了明确的未来方向:

  • 多人生成支持:当前仅针对单人视频,多人场景下行为定义不明确,未来可通过添加显式控制机制解决;
  • 零样本形态适配:现有方案需为新机器人形态训练专属 LoRA,未来可探索单图条件下的零样本转化技术;
  • 细节优化:部分场景中存在小物体消失、遮挡处理不精准等问题,可通过增强合成数据中的细节多样性进一步提升模型鲁棒性。

总结:X-Humanoid 的范式价值与行业影响

X-Humanoid 的核心贡献不仅在于生成了大规模机器人训练数据,更在于建立了 “合成数据驱动 - 模型专项适配 - 真实场景落地” 的完整链路:通过 Unreal Engine 破解配对数据稀缺难题,通过 Wan 2.2 模型适配实现高精度视频转化,最终将互联网上海量的人类视频转化为机器人可用的训练资源。

其释放的 17 小时合成数据集与 60 小时机器人化 Ego-Exo4D 数据集,为 VLA 模型与世界模型的训练提供了关键支撑,同时其技术框架为 “数据稀缺型机器人任务” 提供了可复用的解决方案,推动机器人从 “依赖真实数据” 向 “利用虚拟合成 + 互联网数据” 转型,加速通用自主机器人的落地进程。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
对话地瓜机器人CEO王丛:技术路线尚未收敛,机器人行业的“淘汰赛”还没开始
京东工业与沪光股份签署战略合作 | 超级供应链推动机器人产业数智化升级
11月具身智能:35笔融资近半过亿,官方却紧急“泼冷水”
半导体成核心变量:在人形机器人成本中占比将激增3倍!
2025年中国消防侦查机器人行业发展背景、市场规模及未来前景展望:市场规模达5.61亿元,智能化装备助力现代消防救援[图]
不止造车!千亿车企拟成立机器人公司
具身智能不要走那条自动驾驶的老路
RoboTidy即将开源:让机器人在家庭场景“游刃有余”
图片生成仿真!这个AI让3D资产「开箱即用」,直接赋能机器人训练
再进化!阿童木天兵一号人形机器人正式迭代升级!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号