人形机器人最难的不是走路，而是手脚并用， TeleAI提出OASIS实现仿真数据和模型闭环

点击下方卡片，关注“具身智能之心”公众号

把行走、平衡、双臂操作和环境接触统一起来，让全身移动操作的数据生产走向可规模化

在固定机械臂上，让夹爪把杯子放进盒子，难点大多集中在手臂和末端执行器。换成人形机器人，任务就完全不同了：它要先走到桌边，持续调整脚步和重心，再转身、弯腰、伸手、接触物体，同时确保自己不摔倒。手在干活，腿在走路，躯干在平衡，机器人的第一人称视角还在不断变化。

这种把 locomotion 与 manipulation 紧密耦合的能力，被称为 loco-manipulation（全身移动操作）。它不是“会走路”和“会抓取”的简单相加，而是人形机器人能否真正进入家庭、办公室和工业现场的分水岭。

然而，对于人形机器人的移动操作任务而言，现有数据来源迫使在轨迹质量和数据可扩展性之间做出妥协。真实世界的遥操作能提供最高质量的轨迹，但需要专属的物理空间且场景重置耗时费力。仿真技术为摆脱这一困境提供了另一条出路：它无需任何物理硬件，就能大规模生成干净且与机器人本体相匹配的数据。

近日，中国电信人工智能研究院提出了OASIS，探讨了仿真数据在解决人形机器人“运动-操作”任务数据瓶颈方面的巨大潜力。

人形机器人最难的不是走路，而是手脚并用， TeleAI提出OASIS实现仿真数据和模型闭环图1

本工作由中国电信集团 CTO、首席科学家、中国电信人工智能研究院（TeleAI）院长李学龙教授指导 TeleAI 具身智能团队创新完成。作为 TeleAI 的科研带头人，他带领科研团队围绕具身智能基础模型、人形机器人全身智能与高质量数据体系展开系统研究，推动人工智能能力从数字空间走向真实物理世界。

TeleAI 具身智能科研团队负责人为 TeleAI 研究科学家白辰甲博士，该团队长期聚焦人形机器人全身决策控制与可规模化数据体系，OASIS 正是围绕“数据从哪里来、全身技能如何学、仿真能力如何落到真机”这一关键链条的最新探索。

人形机器人最难的不是走路，而是手脚并用， TeleAI提出OASIS实现仿真数据和模型闭环图2

图 1 OASIS 全流程概览。所有训练演示均在仿真中收集，视觉运动策略随后零样本部署到真实宇树 G1，完成多类全身移动操作任务。

01.

真正的技术难点，

是把全身运动和操作放在一起

很多操作任务已经能在仿真中稳定复现，但人形机器人的全身移动操作要难得多。原因不只是机器人自由度更多，而是移动、平衡、感知、接触和任务执行形成了强耦合：任何一个环节的误差，都可能沿着整条动作链被放大。

固定基座变成移动基座。机械臂的底座通常稳定不动，人形机器人的支撑区域却会随着迈步、转身、下蹲和跪姿持续变化。机器人在伸手或搬抬物体时，物体重量和接触力还会反过来改变全身受力与重心。

局部动作变成长时程全身协同。从走近目标，到调整站位，再到双手抓取、搬运和放置，每个阶段都必须衔接。前一步站偏几厘米，后面的抓取就可能失效；手臂接触过猛，不仅会碰坏物体，也可能破坏身体平衡。

仿真也不能只追求“看起来像”。场景中的尺寸、质量、摩擦、碰撞体和恢复系数都必须足够可信，全身控制器也要能让动作在物理上执行。普通视觉增强可以大量随机化，但全身轨迹不能随意扰动，因为轻微改动就可能破坏平衡。这正说明，人形全身技能的仿真数据远比一般桌面操作更难生产。

也正因此，真机数据采集在这里格外昂贵。长时程任务中只要中途摔倒或接触失败，操作员就要扶起机器人、重新摆放全部物体、检查设备再继续。一条失败轨迹损失的不只是几秒动作，而是整套场景和全身状态的重建成本。

02.

OASIS：

把全身移动操作的数据生产搬进仿真

针对这道难题，TeleAI 团队提出 OASIS。它的目标不只是“用仿真替代真机”，而是建立一条专门面向人形 loco-manipulation 的数据生产线：自动生成可交互资产，在仿真中采集全身演示，将每条轨迹扩展为多样视觉数据，再训练可零样本迁移到真机的分层策略。

第一步：从一张照片生成“能碰、能抓、能推动”的物理资产

把数据采集搬进仿真后，新的瓶颈随即出现：每个任务都需要对应的场景与物体，手工建模同样难以规模化。OASIS 先用3D生成模型从单张实拍照片生成带纹理的高分辨率网格，再由 Qwen3-VL 根据物体类别与视觉信息估计真实尺寸和材质。尺寸用于恢复物体尺度，材质则进一步映射到密度、摩擦和弹性恢复系数等物理参数。

这样得到的不只是一个“看得像”的 3D 模型，而是一个可以进入物理仿真、参与接触和搬运的资产。系统还会围绕估计值随机化物理参数，降低自动生成误差对策略的影响。

人形机器人最难的不是走路，而是手脚并用， TeleAI提出OASIS实现仿真数据和模型闭环图3

图 2 OASIS 框架。系统将资产生成、全身遥操作、离线高保真渲染和分层策略学习解耦，分别解决场景搭建、轨迹采集、视觉扩展与稳定执行问题。

第二步：操作员在虚拟世界里采集全身轨迹

场景搭建完成后，操作员佩戴 VR 头显、手柄和脚踝追踪器，从机器人第一人称视角遥操作仿真中的人形机器人。人体动作经 GMR 重定向为机器人参考全身运动，再由开源全身控制器 Teleopit 驱动机器人执行。

这一步刻意采用 Isaac Sim 的实时渲染模式，优先保证低延迟，而不是追求电影级画面。系统记录机器人与物体的运动状态，以及重定向后的参考动作。换句话说，先把最宝贵、最难采的全身运动轨迹记录下来，图像质量留到后处理阶段解决。

第三步：一条全身演示，扩展成二十个视觉世界

轨迹采集完成后，OASIS 将状态序列离线回放，并切换到 Path-Tracing 高保真渲染。每次回放都会改变背景纹理、光照强度与色温、相机外参。同一段“走到桌边并把杯子放入盒子”的动作，可以出现在不同材质、不同光线和略有视角偏差的环境中。

论文最终为每条轨迹渲染 20 个随机环境。关键意义在于，操作员投入一次时间，系统却能持续生产新的视觉训练样本，把“人的操作时长”与“数据集规模”真正解耦。

第四步：上层规划全身动作，下层负责稳定执行

OASIS 采用分层视觉运动策略。上层 Flow Matching 规划器结合文本指令、头部与双腕三路相机图像，以及最近的参考动作历史，一次预测未来 32 帧的全身参考运动；下层控制器以更高频率闭环跟踪，将参考运动转换为身体与双手共 43 个自由度的关节目标。

团队还采用课程式 rollout 训练：模型先在干净的真实历史上学习，随后逐步接触自己预测产生的误差历史。这样做是为了让策略在长时间执行中学会纠偏，避免前面一个小误差滚成后面的全身失稳。

03.

真机验证：任务越复杂，仿真的价值越明显

团队在宇树 G1 上设置了四项难度递增的任务。它们并非只测试手臂是否能抓住物体，而是覆盖站位调整、全身搬抬、持续接触和跪姿操作等不同形态，直接检验策略是否真正掌握了 loco-manipulation。

数据采集：提速 1.84 倍

在同一名操作员、同一套底层控制器、每项任务均采集 50 条成功轨迹的条件下，OASIS 在四项任务中都比真机遥操作更快，而且任务越复杂，优势越明显。

差距主要不在单次动作执行，而在轨迹之间的恢复成本。真机每完成一次，都需要人工把机器人和物体恢复到初始状态；仿真则可以一键复位。任务越长、物体越多、姿态越复杂，复位成本越高。论文还记录了一个很直观的细节：团队在真机采集擦拭任务时，曾因接触力过大损坏显示器；在仿真中，类似失败只需要重新开始。

人形机器人最难的不是走路，而是手脚并用， TeleAI提出OASIS实现仿真数据和模型闭环图4

图 3 真实宇树 G1 上的四类移动操作任务，包括走近桌面并放置杯子、全身搬抬篮筐、接触式擦拭显示器，以及跪姿进入桌下完成擦拭。

人形机器人最难的不是走路，而是手脚并用， TeleAI提出OASIS实现仿真数据和模型闭环图5

表 1 采集 50 条成功轨迹所需时间。最复杂的跪姿桌下擦拭任务达到 1.84 倍提速。

视觉随机化：打通Sim-to-Real 的桥梁

消融实验显示，关闭全部视觉随机化后，四项任务的平均真机成功率仅为 5%；加入完整的纹理、光照与相机外参随机化后，平均成功率达到 83%。其中光照影响最大，但三种随机化联合使用效果最好，说明它们分别填补了不同维度的视觉差距。

随着每条轨迹的渲染环境增加，成功率持续上升，并在 15 至 20 个环境附近趋于饱和。这一结果说明，仿真的价值并不只是“便宜地复制数据”，而是主动制造真机采集难以覆盖的视觉变化。

纯仿真数据：不再只是补充，而能直接支撑真机任务

在相同轨迹总数下，团队比较了纯仿真、纯真机和仿真加真机三种数据配置。只用 OASIS 仿真数据训练的策略，在真实机器人上的成功率与真机数据训练相当，部分任务甚至更高；将两类数据混合后，整体表现进一步提升。

这背后的逻辑很清晰：仿真负责提供广泛、多样、可重复的视觉与场景覆盖，真机负责补充真实接触和传感特性。二者不是简单替代关系，而是可以形成互补的数据组合。

04.

人形仿真：从验证工具走向数据基础设施

OASIS 最值得关注的，不只是 1.84 倍的采集提速，也不只是一次成功的 Sim-to-Real 实验。它指向的是一个更重要的变化：高保真仿真开始有能力承担人形机器人全身移动操作的数据生产。

对于固定基座机械臂，仿真操作已经有相对成熟的工具链；对于人形机器人，真正困难的是让腿、躯干、双臂、双手和视觉在动态平衡中共同完成任务。OASIS 通过自动资产生成、全身遥操作、离线视觉扩增和分层控制，把这条原本高度依赖真实场地与昂贵硬件的链路搬进了虚拟世界。

团队也明确指出了下一步挑战。目前 OASIS 主要随机化视觉条件，动作多样性仍受操作员演示限制，因为直接扰动全身状态很容易破坏平衡；自动生成资产的几何与物理参数也可能在复杂接触任务中产生误差。未来若能进一步实现物理可行的轨迹增强和更准确的资产标定，仿真数据的规模与质量还有更大上升空间。

从“会走、会抓”到“边走边干活”，人形机器人需要的不是两套孤立能力，而是一套统一的全身智能。OASIS 的意义，正是让这类最难采、最难训、最容易失败的全身技能，第一次拥有了一条可规模化的数据路径。

团队与论文信息

本工作由中国电信人工智能研究院（TeleAI）具身智能团队重点完成，并与复旦大学、华东理工大学、上海交通大学研究人员联合开展。白辰甲博士与李学龙教授为论文通讯作者，李学龙教授指导相关研究。

论文题目：OASIS: From Simulation Data Collection to Real-World Humanoid Loco-Manipulation
论文地址：https://arxiv.org/abs/2606.08548
项目地址：https://oasis-humanoid.github.io/

END