人形机器人最难的不是走路,而是手脚并用, TeleAI提出OASIS实现仿真数据和模型闭环

具身智能之心 2026-06-24 12:36

点击下方卡片,关注“具身智能之心”公众号


把行走、平衡、双臂操作和环境接触统一起来,让全身移动操作的数据生产走向可规模化




在固定机械臂上,让夹爪把杯子放进盒子,难点大多集中在手臂和末端执行器。换成人形机器人,任务就完全不同了:它要先走到桌边,持续调整脚步和重心,再转身、弯腰、伸手、接触物体,同时确保自己不摔倒。手在干活,腿在走路,躯干在平衡,机器人的第一人称视角还在不断变化。

这种把 locomotion 与 manipulation 紧密耦合的能力,被称为 loco-manipulation(全身移动操作)。它不是“会走路”和“会抓取”的简单相加,而是人形机器人能否真正进入家庭、办公室和工业现场的分水岭。

然而,对于人形机器人的移动操作任务而言,现有数据来源迫使在轨迹质量和数据可扩展性之间做出妥协。真实世界的遥操作能提供最高质量的轨迹,但需要专属的物理空间且场景重置耗时费力。仿真技术为摆脱这一困境提供了另一条出路:它无需任何物理硬件,就能大规模生成干净且与机器人本体相匹配的数据。

近日,中国电信人工智能研究院提出了OASIS探讨了仿真数据在解决人形机器人“运动-操作”任务数据瓶颈方面的巨大潜力。

人形机器人最难的不是走路,而是手脚并用, TeleAI提出OASIS实现仿真数据和模型闭环图1

本工作由中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长学龙教授指导 TeleAI 具身智能团队创新完成。作为 TeleAI 的科研带头人,他带领科研团队围绕具身智能基础模型、人形机器人全身智能与高质量数据体系展开系统研究,推动人工智能能力从数字空间走向真实物理世界。

TeleAI 具身智能科研团队负责人为 TeleAI 研究科学家白辰甲博士,该团队长期聚焦人形机器人全身决策控制与可规模化数据体系,OASIS 正是围绕“数据从哪里来、全身技能如何学、仿真能力如何落到真机”这一关键链条的最新探索。

人形机器人最难的不是走路,而是手脚并用, TeleAI提出OASIS实现仿真数据和模型闭环图2

图 1  OASIS 全流程概览。所有训练演示均在仿真中收集,视觉运动策略随后零样本部署到真实宇树 G1,完成多类全身移动操作任务。

01.

真正的技术难点,

是把全身运动和操作放在一起


很多操作任务已经能在仿真中稳定复现,但人形机器人的全身移动操作要难得多。原因不只是机器人自由度更多,而是移动、平衡、感知、接触和任务执行形成了强耦合:任何一个环节的误差,都可能沿着整条动作链被放大。

固定基座变成移动基座。机械臂的底座通常稳定不动,人形机器人的支撑区域却会随着迈步、转身、下蹲和跪姿持续变化。机器人在伸手或搬抬物体时,物体重量和接触力还会反过来改变全身受力与重心。

局部动作变成长时程全身协同。从走近目标,到调整站位,再到双手抓取、搬运和放置,每个阶段都必须衔接。前一步站偏几厘米,后面的抓取就可能失效;手臂接触过猛,不仅会碰坏物体,也可能破坏身体平衡。

仿真也不能只追求“看起来像”。场景中的尺寸、质量、摩擦、碰撞体和恢复系数都必须足够可信,全身控制器也要能让动作在物理上执行。普通视觉增强可以大量随机化,但全身轨迹不能随意扰动,因为轻微改动就可能破坏平衡。这正说明,人形全身技能的仿真数据远比一般桌面操作更难生产。

也正因此,真机数据采集在这里格外昂贵。长时程任务中只要中途摔倒或接触失败,操作员就要扶起机器人、重新摆放全部物体、检查设备再继续。一条失败轨迹损失的不只是几秒动作,而是整套场景和全身状态的重建成本。


02.

OASIS:

把全身移动操作的数据生产搬进仿真


针对这道难题,TeleAI 团队提出 OASIS。它的目标不只是“用仿真替代真机”,而是建立一条专门面向人形 loco-manipulation 的数据生产线:自动生成可交互资产,在仿真中采集全身演示,将每条轨迹扩展为多样视觉数据,再训练可零样本迁移到真机的分层策略。


第一步:从一张照片生成“能碰、能抓、能推动”的物理资产


把数据采集搬进仿真后,新的瓶颈随即出现:每个任务都需要对应的场景与物体,手工建模同样难以规模化。OASIS 先用3D生成模型从单张实拍照片生成带纹理的高分辨率网格,再由 Qwen3-VL 根据物体类别与视觉信息估计真实尺寸和材质。尺寸用于恢复物体尺度,材质则进一步映射到密度、摩擦和弹性恢复系数等物理参数。

这样得到的不只是一个“看得像”的 3D 模型,而是一个可以进入物理仿真、参与接触和搬运的资产。系统还会围绕估计值随机化物理参数,降低自动生成误差对策略的影响。

人形机器人最难的不是走路,而是手脚并用, TeleAI提出OASIS实现仿真数据和模型闭环图3

图 2  OASIS 框架。系统将资产生成、全身遥操作、离线高保真渲染和分层策略学习解耦,分别解决场景搭建、轨迹采集、视觉扩展与稳定执行问题。


第二步:操作员在虚拟世界里采集全身轨迹


场景搭建完成后,操作员佩戴 VR 头显、手柄和脚踝追踪器,从机器人第一人称视角遥操作仿真中的人形机器人。人体动作经 GMR 重定向为机器人参考全身运动,再由开源全身控制器 Teleopit 驱动机器人执行。

这一步刻意采用 Isaac Sim 的实时渲染模式,优先保证低延迟,而不是追求电影级画面。系统记录机器人与物体的运动状态,以及重定向后的参考动作。换句话说,先把最宝贵、最难采的全身运动轨迹记录下来,图像质量留到后处理阶段解决。


第三步:一条全身演示,扩展成二十个视觉世界


轨迹采集完成后,OASIS 将状态序列离线回放,并切换到 Path-Tracing 高保真渲染。每次回放都会改变背景纹理、光照强度与色温、相机外参。同一段“走到桌边并把杯子放入盒子”的动作,可以出现在不同材质、不同光线和略有视角偏差的环境中。

论文最终为每条轨迹渲染 20 个随机环境。关键意义在于,操作员投入一次时间,系统却能持续生产新的视觉训练样本,把“人的操作时长”与“数据集规模”真正解耦。


第四步:上层规划全身动作,下层负责稳定执行


OASIS 采用分层视觉运动策略。上层 Flow Matching 规划器结合文本指令、头部与双腕三路相机图像,以及最近的参考动作历史,一次预测未来 32 帧的全身参考运动;下层控制器以更高频率闭环跟踪,将参考运动转换为身体与双手共 43 个自由度的关节目标。

团队还采用课程式 rollout 训练:模型先在干净的真实历史上学习,随后逐步接触自己预测产生的误差历史。这样做是为了让策略在长时间执行中学会纠偏,避免前面一个小误差滚成后面的全身失稳。

03.

真机验证:任务越复杂,仿真的价值越明显


团队在宇树 G1 上设置了四项难度递增的任务。它们并非只测试手臂是否能抓住物体,而是覆盖站位调整、全身搬抬、持续接触和跪姿操作等不同形态,直接检验策略是否真正掌握了 loco-manipulation。


数据采集:提速 1.84 倍


在同一名操作员、同一套底层控制器、每项任务均采集 50 条成功轨迹的条件下,OASIS 在四项任务中都比真机遥操作更快,而且任务越复杂,优势越明显。

差距主要不在单次动作执行,而在轨迹之间的恢复成本。真机每完成一次,都需要人工把机器人和物体恢复到初始状态;仿真则可以一键复位。任务越长、物体越多、姿态越复杂,复位成本越高。论文还记录了一个很直观的细节:团队在真机采集擦拭任务时,曾因接触力过大损坏显示器;在仿真中,类似失败只需要重新开始。

人形机器人最难的不是走路,而是手脚并用, TeleAI提出OASIS实现仿真数据和模型闭环图4

图 3  真实宇树 G1 上的四类移动操作任务,包括走近桌面并放置杯子、全身搬抬篮筐、接触式擦拭显示器,以及跪姿进入桌下完成擦拭。

人形机器人最难的不是走路,而是手脚并用, TeleAI提出OASIS实现仿真数据和模型闭环图5

表 1  采集 50 条成功轨迹所需时间。最复杂的跪姿桌下擦拭任务达到 1.84 倍提速。


视觉随机化:打通Sim-to-Real 的桥梁


消融实验显示,关闭全部视觉随机化后,四项任务的平均真机成功率仅为 5%;加入完整的纹理、光照与相机外参随机化后,平均成功率达到 83%。其中光照影响最大,但三种随机化联合使用效果最好,说明它们分别填补了不同维度的视觉差距。

随着每条轨迹的渲染环境增加,成功率持续上升,并在 15 至 20 个环境附近趋于饱和。这一结果说明,仿真的价值并不只是“便宜地复制数据”,而是主动制造真机采集难以覆盖的视觉变化。


纯仿真数据:不再只是补充,而能直接支撑真机任务


在相同轨迹总数下,团队比较了纯仿真、纯真机和仿真加真机三种数据配置。只用 OASIS 仿真数据训练的策略,在真实机器人上的成功率与真机数据训练相当,部分任务甚至更高;将两类数据混合后,整体表现进一步提升。

这背后的逻辑很清晰:仿真负责提供广泛、多样、可重复的视觉与场景覆盖,真机负责补充真实接触和传感特性。二者不是简单替代关系,而是可以形成互补的数据组合。

04.

人形仿真:从验证工具走向数据基础设施


OASIS 最值得关注的,不只是 1.84 倍的采集提速,也不只是一次成功的 Sim-to-Real 实验。它指向的是一个更重要的变化:高保真仿真开始有能力承担人形机器人全身移动操作的数据生产。

对于固定基座机械臂,仿真操作已经有相对成熟的工具链;对于人形机器人,真正困难的是让腿、躯干、双臂、双手和视觉在动态平衡中共同完成任务。OASIS 通过自动资产生成、全身遥操作、离线视觉扩增和分层控制,把这条原本高度依赖真实场地与昂贵硬件的链路搬进了虚拟世界。

团队也明确指出了下一步挑战。目前 OASIS 主要随机化视觉条件,动作多样性仍受操作员演示限制,因为直接扰动全身状态很容易破坏平衡;自动生成资产的几何与物理参数也可能在复杂接触任务中产生误差。未来若能进一步实现物理可行的轨迹增强和更准确的资产标定,仿真数据的规模与质量还有更大上升空间。

从“会走、会抓”到“边走边干活”,人形机器人需要的不是两套孤立能力,而是一套统一的全身智能。OASIS 的意义,正是让这类最难采、最难训、最容易失败的全身技能,第一次拥有了一条可规模化的数据路径。


团队与论文信息


本工作由中国电信人工智能研究院(TeleAI)具身智能团队重点完成,并与复旦大学、华东理工大学、上海交通大学研究人员联合开展。白辰甲博士与李学龙教授为论文通讯作者,李学龙教授指导相关研究。

  • 论文题目:OASIS: From Simulation Data Collection to Real-World Humanoid Loco-Manipulation

  • 论文地址:https://arxiv.org/abs/2606.08548

  • 项目地址:https://oasis-humanoid.github.io/


END

 推荐阅读 :

人形机器人最难的不是走路,而是手脚并用, TeleAI提出OASIS实现仿真数据和模型闭环图6


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 机器人
more
突发!美国酝酿对中国机器人下黑手
日企GMO开始在日本销售宇树人形机器人
成都科技×成都高新联合创作《机器人医生》 入选第三届“新时代·新影像”中外联合创作计划
对话李鸿升:机器人也需要一个"家"?Kairos-HomeWorld 背后,大晓的造世界野心
IPO之后再举债,马斯克SpaceX首发投资级债券;机器人怕失控?英伟达Halos系统实现「智驾级」安全;AI巨头掏空软件公司高层丨硅谷大事件
机器人关节,盯上“薄饼电机”
FF EAI机器人6月出货将超100台
第 2 课开讲:机器人数据到底从哪来?从 LeRobotDataset 到 GHRC 四大任务
具身机器人灵巧手的“黄金三角”:小脑运控高频化、感知多模态融合、硬件级安全护航
镜头被油污糊住,机器人还稳定操作?北大/清华等给VLA加一道信息筛选,不靠额外数据,效率提升14x,真机鲁棒性反而更高了 | ICML 2026
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号