构建能够栖居于人类环境,并协助人类日常生活的拟人化通用智能机器人一直是机器人研究的核心目标之一。想要实现拟人化需要不断从与物理世界的复杂交互中学习,在初始阶段通过可以模仿人类行为,从而加速技能的学习与迁移。
但想要实现这一目标目前面临着三大挑战:1)设计具备高度拟人操作能力且安全可靠的机器人硬件;2)开发直观且可扩展的全身遥操作系统,用于采集高质量真机数据;3)构建能够从人类演示中学习的全身视觉-运动策略的算法。
为了在统一框架内系统性地解决上述挑战,星尘智能推出一套面向多样化真实场景、聚焦全身操作的机器人学习套件Astribot Suite,旨在让机器人完成多种环境下的日常任务。
Astribot Suite包含三个核心部分:
1)机器人平台:开发了一个带有灵活躯干和移动底座的双臂机器人,能够模仿人类行为。
2)遥操作接口:开发了一套全身遥操作接口,具有通用性、高可用性和低延迟的特点,能进行大规模数据收集。
3)全身移动操作模型:提出了全身移动操作的模仿学习算法 (DuoCore-WB),通过RGB观测和精动作表征,来建模协调的全身动作。
在需要全身协调、高灵巧性与高动态响应能力的多个任务中,验证了DuoCore-WB的有效性,任务平均成功率为80%,最高达到100%。

论文标题:《Towards Human-level Intelligence via Human-like Whole-Body Manipulation》
论文链接:https://arxiv.org/pdf/2507.17141
1
硬件系统
1.1 机器人平台
Astribot S1机器人具有两个安装在4自由度躯干上的7自由度手臂。每条手臂配备一个夹爪,有效载荷5公斤,夹爪的开合时间为0.15秒,可以拿起各种日常物品。4自由度躯干允许腰部旋转、髋部弯曲和类似膝盖的关节运动,使机器人能够在站立和蹲姿之间丝滑转换,此设计显著增强了垂直机动性并扩展了有效工作空间。

Astribot S1的2自由度头部允许动态视线控制和任务相关的视觉聚焦,模仿人类在复杂环境中的感知行为,可达垂直范围从地面到2米,可达水平范围最大为1.94米(含夹爪)。Astribot S1旨在以人为中心的环境中有效运行并能完成多种任务,其关键性能指标超越了普通成年男性。

在感知方面,Astribot S1配备了多种传感器,以实现稳健的场景理解和操作。头部集成了一个立体RGB相机和一个Orbbec Femto Bolt RGB-D相机。两个手腕上安装了两个Intel RealSense D401 RGB-D相机,以便在精细操作时近距离观测。此外,胸部还有一个Orbbec Gemini 335 RGB-D相机用于中距离感知;底盘上有一个Livox MID-360 LiDAR用于360°空间感知和建图。
1.2 用于数据采集的遥操作
该团队开发了一种全身遥操作系统,由VR头显和遥操作手柄组成。设计时考虑了以下关键因素:(1) 直观且实时的全身控制,能够完成复杂运动;(2) 稳健的安全机制,以保护操作员和机器人;(3) 高质量的演示捕捉,以实现有效的策略学习;(4) 低成本。该系统支持两种控制模式:第一人称视角模式,针对精确复杂的操控任务以及远程遥控操作进行了优化;第三人称视角模式,专为大范围全身运动而设计,传输延迟极低,非常适合高动态任务以及近场数据采集。
实时的全身控制遥操作手柄如下图所示。grip button启动动作跟随模式,使机器人能够跟踪人类的全身运动;triggers控制夹爪的开合;left thumbstick向移动底座发出指令;right thumbstick调整肢体的垂直位置。这种配置直观且用户友好,能同时控制全身运动和底座导航,实现高效准确的遥操作。

如下表所示为通过遥操作接口记录的“拾取玩具”任务演示。图表显示了6个随机选择的关节的数据,线代表了指令关节位置,红线是实际位置,跟踪误差由绿色虚线表示。误差始终保持在较小范围,展示了高精度的轨迹跟踪。

2
全身移动操作模型 DuoCore-WB
为完成可泛化的全身移动操作任务,该团队推出了一种简单而有效的模仿学习算法DuoCore-WB。强调三点核心设计:(1)基于RGB的视觉感知,能够使用预训练的视觉编码器进行视觉泛化,并通过与大规模VLA训练的兼容性促进可扩展性; (2) 在末端执行器 (EE) 笛卡尔空间中使用SO;(3) 作为方向表示进行全身策略控制,表示为每个末端执行器在自身坐标系下的运动增量。
2.1 输入输出设计
DuoCore-WB仅使用RGB图像作为输入,保证了与VLA预训练模型的无缝衔接。视觉输入来自三个相机:头部相机、左腕相机和右腕相机。机器人状态信息包括底盘运动、躯干姿态、双臂夹爪位姿及头部位姿,这些状态信息与视觉输入一同作为模型的输入。
DuoCore-WB在末端执行器 (EE) 笛卡尔空间中(而非高维关节空间)对全身动作进行生成,有效避免了关节误差累积带来的末端精度下降。此外,该模型学习了各末端执行器在自身坐标系下的动作增量,增强了视觉观察与动作目标之间的一致性,并显著提升了在全身操作中应对大视角变化的鲁棒性。
2.2 模型架构
DuoCore-WB是一种融合了Transformer架构与扩散模型的模仿学习框架,旨在学习复杂的全身移动操作策略。

在多模态特征编码阶段,模型接收三路同步图像,并统一送入经过预训练的ViT进行视觉特征编码。为了增强模型对摄像头视角与空间信息的感知能力,为每幅图像中的所有patch tokens添加了一组共享的可学习位置编码(Learnable Positional Embeddings),用于指示该token所在的空间位置以及图像来源(即摄像头模态),从而在特征层明确区分三视角之间的差异。
在动作生成阶段,采用条件扩散模型(C-DDPM),以建模从感知特征到高维动作序列的条件生成映射。该模型能够在感知条件(如图像与状态编码)给定的前提下,从随机噪声中逐步生成与人类示范相一致的全身动作轨迹。
2.3 实时轨迹生成模块 (RTG)
现有的机器人策略模型通常根据当前观测生成一系列未来动作,每个序列被称为一个动作块 (action chunk)。虽然这些动作块与时间索引相关联,但它们的动态执行有以下两大挑战:1) 块内抖动 (Intra-chunk jitter):同一块内连续动作之间的不一致性;2) 块间不连续性 (Inter-chunk discontinuities):不同动作块之间的突然变化导致轨迹不连续,对于全身操作来说更明显,因为观测会随时间发生显著变化。动作流中的突然变化不仅会降低执行稳定性,还可能对硬件完整性构成风险。
该团队提出一个轻量级实时轨迹生成模块RTG,可以无缝集成到任何视觉运动学习算法中,只要满足以下两个条件,可以无缝集成到任何视觉运动学习算法中:1) 策略模型每个推理周期生成一个动作块,块中的每个动作都有一个与训练数据时间分辨率对齐的时间戳;2) 推理时间短于单个动作块的执行持续时间。下图为某VLA模型用不同的动作块处理产生的轨迹在不同时刻的速度。

3
实验
3.1 实验设置
研究人员在6个有代表性的任务上评估了DuoCore-WB,如下图所示。这些长周期、多阶段的任务可以分解为一系列子任务。对于每个任务,进行15-30次评估试验,在第一次子任务失败时终止一个回合 (episode)。
递饮料 (Deliver a drink):评估系统执行长周期任务的能力,包括移动操作以及与带关节物体(如门把手)间的灵巧交互;
存放猫粮 (Store cat food):测试在有限空间(如低矮橱柜)内的精细操作、空间约束下的双手协调操作,以及拿取较重物品(约2公斤的猫粮)时的动态稳定性;
扔垃圾 (Throw away trash):评估机器人的多阶段双手协调和带关节部件(如掀开垃圾桶盖)的灵巧操作能力;
整理鞋子 (Organize shoes):强调低高度下的全身协调控制和双手同步操作;
投掷玩具 (Throw a toy):评估机器人执行全身运动并准确抓取地板上小物体的能力;
拾取玩具 (Pick up toys):通过双手协调控制,来实现持续、准确的多物体操作。

3.2 实验结果
实验结果如下表所示,表中体现了6个有代表性任务的成功率,包括每个子任务的成功率和整体端到端任务成功率。DuoCore-WB在全身移动操作任务上都展现了较好的成功率,平均成功率为80% 。在投掷玩具上成功率达到100%,在存放猫粮任务上也达到95%的成功率。

通过在末端执行器 (EE) 空间学习来减轻误差累积。在动作表示方面,末端执行器(EE)空间表征相比关节空间表征,在全身任务中精度更高,能减轻误差累积。尤其在长误差传播路径的动态全身活动中优势明显;增量动作表征相比绝对动作表征,生成的轨迹在动作块间的不连续性更小,更加平滑且和时间更短。
使用增量动作表征学习可提高轨迹平滑度。相较于绝对动作表征,使用增量动作表征训练的策略能有效减少动作跳变与轨迹振荡,尤其在高频控制或较大动作幅度场景下更显著。在桌面清理与地面物体分类任务中,绝对动作策略的平均步进变化为0.0058,动作块变化高达0.0196;而增量动作策略分别降低至0.0034与0.0032。

末端执行器自坐标系增强视觉-动作对齐。将增量动作表征为末端执行器的位姿变换矩阵,并系统比较了两种参考坐标系:机器人坐标系与末端执行器自坐标系。在多个桌面任务中进行评估,所有实验均在少样本条件下(每任务仅40条示范)进行,结果如下表所示,基于末端执行器自坐标系的增量动作表征平均表现更优。

参考框架比较中,以自我中心框架的增量动作表示在各类任务中平均成功率更高。在腕部相机为主的任务中增强视觉与动作对齐,在头部相机引导任务中受视角变化影响小,在全身协调操作任务中提供稳定运动目标表示,且在分布偏移时泛化能力和部署鲁棒性更强。
轨迹对比表明,以自我中心框架的轨迹在多任务操控学习中平滑度最高。其动态更新参考框架,使跨任务轨迹结构更对齐、紧凑,方差低、信息密度高,与机器人感知和控制匹配,能实现有效局部反馈策略,优于世界框架绝对轨迹和机器人框架相对轨迹。
末端执行器自坐标系的轨迹表示方法提升结构一致性与建模效率。实验比较了三种轨迹表示方法:世界坐标下的绝对轨迹、机器人坐标系下的相对轨迹,以及末端执行器自坐标系下的相对轨迹。如下图所示,绝对轨迹受初始状态与环境布局变化影响较大,结构一致性弱;机器人坐标系下相对轨迹可滤除部分全局变化,但参考系固定,仍受机器人移动影响;末端执行器自坐标系下的相对轨迹则能动态更新参考系,使动作表征在结构上更紧凑、信息密度更高,且自然对齐机器人控制逻辑,在多任务学习中取得最佳表现。

4
总结
星尘智能推出了一套面向多样化真实环境、聚焦全身操作的机器人学习套件Astribot Suite,旨在让机器人完成多种环境下的日常任务。Astribot Suite包含三个核心部分:机器人平台Astribot S1、用于真机数据采集的全身遥操作接口、机器人全身移动操作模型DuoCore-WB。在多个任务中,验证了DuoCore-WB的有效性,任务平均成功率为80%,最高达到100%。
END
推荐阅读
灵巧手抓放任务成功率100%!帕西尼联合上交大提出融合触觉的VLA模型OmniVTLA
全面优于π0!星海图开源端到端双系统VLA模型G0:基于500小时真机数据预训练
训练数据65万条!上海AI Lab联合提出端到端VLA模型InstructVLA,真机实验成功率超OpenVLA
20亿参数+全面超越π0!清华朱军团队&地平线提出全新VLA模型H-RDT,有效从人类操作数据中学习
机器人非抓取操作重大突破!北大&银河通用王鹤团队提出自适应世界动作模型DyWA | ICCV 2025
点击下方名片 即刻关注我们