首个零样本跨本体泛化开源具身模型:智源RoboBrain-X0 技术细节全解析

机器之心 2025-09-29 14:52
机器之心发布

机器之心编辑部

为具身智能行业提供了一个可复用、可扩展的通用基座,同时开源训练数据集。


首个零样本跨本体泛化开源具身模型:智源RoboBrain-X0 技术细节全解析图1


今天,北京智源人工智能研究院(BAAI)正式开源 RoboBrain-X0,一个能够在零样本泛化轻量微调条件下,驱动多种不同真实机器人完成复杂任务的具身智能基座大模型。其核心突破在于:用统一的动作空间与分层任务拆解,实现了「一个基座模型,N种身体」,为通用具身智能提供一条切实可行的路径。


RoboBrain-X0 源自 RoboBrain 的多模态基座能力,在 RoboBrain 2.0 数据基础上,进一步融合了真实机器人动作数据。通过统一建模视觉、语言与动作,它实现了跨本体的泛化与适配,具备从感知到执行的一体化能力。


据智源团队公开的评测,RoboBrain-X0 在多个主流机器人本体上的真机实验显示:


这些结果意味着,RoboBrain-X0 不仅是理论上的「通用基座」,而且已在工程实践中迈出了从单点突破到规模化落地的关键一步。


作为新一代跨本体基座大模型,RoboBrain-X0 突破对单一机器人体系的依赖,实现异构本体统一建模,并具备实用级 zero-shot pick&place 泛化能力与轻量微调下的复杂任务拆解能力。



本体泛化困境:

通用具身智能的核心阻碍


随着机器人逐步走出实验室,走进家庭、工厂、公共空间,行业也面临着一个日益突出的难题:尽管模型在单一机器人上的能力日新月异,但这种智能却像一座座孤岛,难以迁移和扩展。


问题的根源在于,当前主流模型普遍采用在单一本体上端到端训练的范式。然而,不同品牌、不同结构的机器人,其动作空间、自由度和动力学特性千差万别,导致模型的智能被其物理载体(Embodiment)牢牢「锁死」。


即便有了一个很好的具身大脑模型,每适配一种新硬件,都需要重新收集数据进行微调,更深层次上,这种模式还造成了严重的数据壁垒,不同本体间的数据难以复用,难以形成类似大语言模型领域的「数据飞轮」效应。


打破「本体枷锁」,让智能在不同物理形态间无缝流转,已成为整个领域从单点炫技迈向全面普惠的决定性关隘。


实现「语义一致、控制一致、执行一致」

三层对齐


面对这一制约,智源研究团队的思路是,将一个高度依赖硬件的控制问题,转化为了一个本体无关、直接描述物理世界交互的目标问题。


首个零样本跨本体泛化开源具身模型:智源RoboBrain-X0 技术细节全解析图2

首个零样本跨本体泛化开源具身模型:智源RoboBrain-X0 技术细节全解析图3


第一步,是统一动作空间


RoboBrain-X0 将不同类型机器人(无论是机械臂、移动底盘还是双臂系统)的控制信号,全部映射到同一个动作空间,即末端执行器(End-Effector,EE)在三维空间中的位姿(位置与姿态)。这一抽象方式,直接跨越了各类机器人在自由度、结构定义上的巨大差异,无论底层关节、驱动方式如何变化,所有本体在 RoboBrain-X0 看来,都在用同一种「动作语言」进行感知、学习与协作。


其次,是离散化动作词汇


智源团队进一步引入「动作Tokenizer」机制,将原本连续且高维的物理操作轨迹,离散成一组可迁移的动作原语token。这些token基于分组残差量化(GRVQ),分别对位置、旋转、夹爪等多个维度进行压缩和抽象。这样,原本冗长复杂的控制指令被浓缩为简明的token序列,模型能够用更少的计算资源表达长时序行为,大幅提升训练与推理效率,并增强了长时控制的稳定性。


最终,RoboBrain-X0 实现了跨本体的知识和能力共享


机械臂、移动底盘、双臂系统等不同本体都能共享同一套操作原语,模型可以在不同类型机器人采集的数据上进行「混合本体数据训练」,并从中抽取出具备普适性的物理知识与操作策略。过去难以迁移的跨本体能力,如今有了工程化落地的可能。


分层规划与推理:

让「意图到动作」可泛化、可迁移


RoboBrain-X0 的另一项关键创新,是将「语言到动作」这一长期困扰具身智能的难题,拆解为分层、可解释的推理链路。通过模拟人类的分步决策过程,让复杂任务的理解与执行变得更加高效、易于泛化。


  1. 高层:意图解析与任务分解。模型首先读取自然语言指令(如「把苹果放进篮子里」),理解整体目标,并自动分解为一系列语义明确的子任务(如「找到苹果」「拿起苹果」「放进篮子」)。


  2. 中层:动作原语推理。每个子任务进一步被转化为动作原语token序列。这些token代表「接近」、「抓取」、「放置」等可迁移的基础操作,成为具身智能跨本体泛化的关键「词汇」。


  3. 底层:控制信号解码。最终,动作原语token被解码为具体的底层控制信号,如增量末端位姿和夹爪开合指令。这一层将抽象的意图转化为各类本体可直接执行的物理操作。


在训练阶段,团队采用分阶段、多模态的数据策略:


首个零样本跨本体泛化开源具身模型:智源RoboBrain-X0 技术细节全解析图4


推理时,模型同样先完成高层的任务拆解与子任务链生成,再通过动作Tokenizer,将抽象的动作序列稳定映射为不同本体可执行的控制信号。每一级推理都受到专门的数据监督和一致性约束,确保模型在异构机器人、复杂场景下都能输出语义一致、行为稳定的策略。 这一机制不仅极大提升了模型的泛化能力,也大幅缩短了新任务、新环境的适应周期。


不止模型,

同步开源核心训练数据集


RoboBrain-X0 卓越跨本体能力的背后,是坚实的数据基础。伴随此次模型开源,智源同步向全球开放了其核心训练数据集 RoboBrain-X0-Dataset。


首个零样本跨本体泛化开源具身模型:智源RoboBrain-X0 技术细节全解析图5


该数据集的构建,旨在系统性地赋予模型两大核心能力:



该数据集的开源不仅在于提供数据本身,「所有数据均经过统一格式化与严格的质量控制,供研究者开箱即用」,智源团队表示,「同时,我们也希望为社区提供一个可复现、可比较的跨设备评测基准,帮助推动具身方法论的快速迭代与对齐,最终加速具身智能技术从实验室走向产业应用的进程」。


实验结果


为全面检验 RoboBrain-X0 的泛化能力与实际效能,智源研究团队在权威的 Libero 仿真平台和真实的机器人硬件上进行了一系列严格的评测,主要与当前业界领先的 π0-fast 和 π0 进行了比较。结果表明,RoboBrain-X0 不仅在理论性能上取得突破,更在真实世界应用中展现出显著优势。


在 Libero 仿真评测中,RoboBrain-X0 在空间理解(Spatial)、物体交互(Object)、目标导向(Goal)和长程任务(Long)等所有关键维度上,其性能均超越了其他模型,综合成功率高达 96.3%,位列第一。


首个零样本跨本体泛化开源具身模型:智源RoboBrain-X0 技术细节全解析图6

Libero仿真评测结果


更为关键的是,在更具挑战性的真机评测中,RoboBrain-X0 的总体成功率达到了 48.9%,几乎是基线模型 π0(19.8%)的 2.5 倍。特别是在基础抓放任务中,RoboBrain-X0 甚至实现了 100% 的成功率。


首个零样本跨本体泛化开源具身模型:智源RoboBrain-X0 技术细节全解析图7

真机评测结果,在空间关系理解(任务1)、基础抓放(任务2)、类别泛化(任务3)、多目标处理(任务4)任务上全面超越π0


这些数据证明,RoboBrain-X0 所采用的跨本体通用架构,能够有效将抽象的「任务意图」转化为精准的物理动作,其零样本泛化能力并非停留在模拟层面,而是在复杂的真实物理世界中稳定、可靠,为具身智能从实验室走向产业化落地奠定了坚实的基础。


迈向「一个基座,N种身体」的新时代


RoboBrain-X0 在工程层面实现了基于一个统一的预训练基座,在零微调条件下驱动多种异构真实机器人完成复杂任务。


RoboBrain-X0 的开源,不仅为全球具身智能行业提供了一个可复用、可扩展的通用基座,也为智能机器人规模化落地打开了新局面。


对开发者和学术界而言,研发重心将从底层的重复造轮子,转向高层的创新与应用;对于产业链,机器人产品的智能能力将像安装APP一样实现快速适配,并能基于通用基座持续拓展;数据资产也将在更大范围内流动和增值,促进软硬件解耦和生态繁荣。


当然,通用具身智能的终极目标仍然遥远。RoboBrain-X0 在复杂人机交互、动态环境理解、自主学习等方向还需持续进化。但通过统一动作空间和分层推理框架的落地,「一个大脑,多种身体」已从愿景变为现实的工程起点。


正如团队所言:「我们希望 RoboBrain-X0 能成为连接不同身体、不同环境、不同任务的通用智能枢纽。」


从今天起,全球「具身智能基座」的竞赛,或许才刚刚开始。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 开源
more
NeurIPS'25 开源|Co-Adaptation-3DGS:3DGS的过度共适应现象是稀疏视角重建伪影的核心原因
NeurlPS'25开源 | 不依赖复杂初始化,GeoSVR:真正精确、完整的3D表面重建
0925:云栖大会通义集中发布6款模型+1个全新品牌|Meta FAIR发布代码世界模型CWM|英伟达开源Audio2Face
零样本「即插即用」!智源开源RoboBrain-X0,一个基座模型开动不同机器人
Qwen开源版Banana来了!原生支持ControlNet
最受欢迎的开源大模型推理框架 vLLM、SGLang 是如何炼成的?
智元参与筹建开源鸿蒙具身智能 PMC,以灵渠 OS 共筑机器人开源生态
华为盘古718B模型最新成绩:开源第二
Transformer作者初创公司最新成果:开源新框架突破进化计算瓶颈,样本效率暴涨数十倍
刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号