首个零样本跨本体泛化开源具身模型：智源RoboBrain-X0 技术细节全解析

机器之心发布

机器之心编辑部

为具身智能行业提供了一个可复用、可扩展的通用基座，同时开源训练数据集。

首个零样本跨本体泛化开源具身模型：智源RoboBrain-X0 技术细节全解析图1

今天，北京智源人工智能研究院（BAAI）正式开源 RoboBrain-X0，一个能够在零样本泛化、轻量微调条件下，驱动多种不同真实机器人完成复杂任务的具身智能基座大模型。其核心突破在于：用统一的动作空间与分层任务拆解，实现了「一个基座模型，N种身体」，为通用具身智能提供一条切实可行的路径。

RoboBrain-X0 源自 RoboBrain 的多模态基座能力，在 RoboBrain 2.0 数据基础上，进一步融合了真实机器人动作数据。通过统一建模视觉、语言与动作，它实现了跨本体的泛化与适配，具备从感知到执行的一体化能力。

据智源团队公开的评测，RoboBrain-X0 在多个主流机器人本体上的真机实验显示：

零样本迁移能力突出：仅靠统一预训练，模型即能在不同本体完成pick&place等任务，指令跟随与场景切换表现稳定。
小样本微调效应显著：在每个任务/域仅提供50条样本的微调情况下，RoboBrain-X0 的泛化表现已超过行业主流基线（如π0），尤其在混合本体、复杂场景下，少量微调即可具备针对复杂目标任务的拆解和执行能力，展现出远高于传统模型的数据效率和迁移性。
控制一致性强：不同本体在执行同一高层任务时，生成的动作原语序列高度一致，实际物理执行表现可靠。

这些结果意味着，RoboBrain-X0 不仅是理论上的「通用基座」，而且已在工程实践中迈出了从单点突破到规模化落地的关键一步。

作为新一代跨本体基座大模型，RoboBrain-X0 突破对单一机器人体系的依赖，实现异构本体统一建模，并具备实用级 zero-shot pick&place 泛化能力与轻量微调下的复杂任务拆解能力。

RoboBrain-X0 Github 地址：
https://github.com/FlagOpen/RoboBrain-X0
RoboBrain-X0多芯片版本地址FlagRelease：
https://huggingface.co/FlagRelease/RoboBrain-X0-FlagOS
核心训练数据集：
https://huggingface.co/datasets/BAAI/RoboBrain-X0-Dataset
RoboBrain 2.0 技术文档：
https://arxiv.org/abs/2507.02029

本体泛化困境：

通用具身智能的核心阻碍

随着机器人逐步走出实验室，走进家庭、工厂、公共空间，行业也面临着一个日益突出的难题：尽管模型在单一机器人上的能力日新月异，但这种智能却像一座座孤岛，难以迁移和扩展。

问题的根源在于，当前主流模型普遍采用在单一本体上端到端训练的范式。然而，不同品牌、不同结构的机器人，其动作空间、自由度和动力学特性千差万别，导致模型的智能被其物理载体（Embodiment）牢牢「锁死」。

即便有了一个很好的具身大脑模型，每适配一种新硬件，都需要重新收集数据进行微调，更深层次上，这种模式还造成了严重的数据壁垒，不同本体间的数据难以复用，难以形成类似大语言模型领域的「数据飞轮」效应。

打破「本体枷锁」，让智能在不同物理形态间无缝流转，已成为整个领域从单点炫技迈向全面普惠的决定性关隘。

实现「语义一致、控制一致、执行一致」

三层对齐

面对这一制约，智源研究团队的思路是，将一个高度依赖硬件的控制问题，转化为了一个本体无关、直接描述物理世界交互的目标问题。

首个零样本跨本体泛化开源具身模型：智源RoboBrain-X0 技术细节全解析图2

首个零样本跨本体泛化开源具身模型：智源RoboBrain-X0 技术细节全解析图3

第一步，是统一「动作空间」

RoboBrain-X0 将不同类型机器人（无论是机械臂、移动底盘还是双臂系统）的控制信号，全部映射到同一个动作空间，即末端执行器（End-Effector，EE）在三维空间中的位姿（位置与姿态）。这一抽象方式，直接跨越了各类机器人在自由度、结构定义上的巨大差异，无论底层关节、驱动方式如何变化，所有本体在 RoboBrain-X0 看来，都在用同一种「动作语言」进行感知、学习与协作。

其次，是离散化「动作词汇」

智源团队进一步引入「动作Tokenizer」机制，将原本连续且高维的物理操作轨迹，离散成一组可迁移的动作原语token。这些token基于分组残差量化（GRVQ），分别对位置、旋转、夹爪等多个维度进行压缩和抽象。这样，原本冗长复杂的控制指令被浓缩为简明的token序列，模型能够用更少的计算资源表达长时序行为，大幅提升训练与推理效率，并增强了长时控制的稳定性。

最终，RoboBrain-X0 实现了跨本体的知识和能力共享

机械臂、移动底盘、双臂系统等不同本体都能共享同一套操作原语，模型可以在不同类型机器人采集的数据上进行「混合本体数据训练」，并从中抽取出具备普适性的物理知识与操作策略。过去难以迁移的跨本体能力，如今有了工程化落地的可能。

分层规划与推理：

让「意图到动作」可泛化、可迁移

RoboBrain-X0 的另一项关键创新，是将「语言到动作」这一长期困扰具身智能的难题，拆解为分层、可解释的推理链路。通过模拟人类的分步决策过程，让复杂任务的理解与执行变得更加高效、易于泛化。

高层：意图解析与任务分解。模型首先读取自然语言指令（如「把苹果放进篮子里」），理解整体目标，并自动分解为一系列语义明确的子任务（如「找到苹果」「拿起苹果」「放进篮子」）。
中层：动作原语推理。每个子任务进一步被转化为动作原语token序列。这些token代表「接近」、「抓取」、「放置」等可迁移的基础操作，成为具身智能跨本体泛化的关键「词汇」。
底层：控制信号解码。最终，动作原语token被解码为具体的底层控制信号，如增量末端位姿和夹爪开合指令。这一层将抽象的意图转化为各类本体可直接执行的物理操作。

在训练阶段，团队采用分阶段、多模态的数据策略：

第一步，通过大规模视频+语言数据（无动作配对）强化模型的空间理解与语义规划能力；
第二步，逐步引入动作轨迹配对数据，建立从任务语义到物理控制的精准映射；
第三步，针对遮挡、干扰、新物体等现实难题，用小样本微调实现定向强化与快速适应。

首个零样本跨本体泛化开源具身模型：智源RoboBrain-X0 技术细节全解析图4

推理时，模型同样先完成高层的任务拆解与子任务链生成，再通过动作Tokenizer，将抽象的动作序列稳定映射为不同本体可执行的控制信号。每一级推理都受到专门的数据监督和一致性约束，确保模型在异构机器人、复杂场景下都能输出语义一致、行为稳定的策略。这一机制不仅极大提升了模型的泛化能力，也大幅缩短了新任务、新环境的适应周期。

不止模型，

同步开源核心训练数据集

RoboBrain-X0 卓越跨本体能力的背后，是坚实的数据基础。伴随此次模型开源，智源同步向全球开放了其核心训练数据集 RoboBrain-X0-Dataset。

首个零样本跨本体泛化开源具身模型：智源RoboBrain-X0 技术细节全解析图5

该数据集的构建，旨在系统性地赋予模型两大核心能力：

从通用感知到具身理解的数据：这一部分旨在让模型「看懂」并「思考」物理世界。它在传统的视觉问答（VQA）与推理数据之上，大量扩展了与物理交互强相关的任务，如物体 affordance 查询（物体可以被如何操作）、轨迹生成和动作规划。这些数据由开源成果与真实机器人采集共同组成，帮助 RoboBrain-X0 建立起从通用视觉语言到特定具身场景空间理解的桥梁。

从多样化动作到泛化技能的数据：这是实现跨本体泛化的核心。智源团队整合了多源数据，形成了一个层次丰富的动作知识库。首先，它引入了如 Agibot World 等高质量的开源动作数据作为基础。其次，团队通过与松灵、星海图等厂商深度合作，同时结合自采，构建了一套体系化的真实数据采集与标注流程。这批数据不仅包含了直接的「指令-动作」对，还创新性地加入了「指令-子任务推理-动作」的样本，专门用于训练模型的长程任务分解、进度感知与动态决策能力。

该数据集的开源不仅在于提供数据本身，「所有数据均经过统一格式化与严格的质量控制，供研究者开箱即用」，智源团队表示，「同时，我们也希望为社区提供一个可复现、可比较的跨设备评测基准，帮助推动具身方法论的快速迭代与对齐，最终加速具身智能技术从实验室走向产业应用的进程」。

实验结果

为全面检验 RoboBrain-X0 的泛化能力与实际效能，智源研究团队在权威的 Libero 仿真平台和真实的机器人硬件上进行了一系列严格的评测，主要与当前业界领先的 π0-fast 和 π0 进行了比较。结果表明，RoboBrain-X0 不仅在理论性能上取得突破，更在真实世界应用中展现出显著优势。

在 Libero 仿真评测中，RoboBrain-X0 在空间理解（Spatial）、物体交互（Object）、目标导向（Goal）和长程任务（Long）等所有关键维度上，其性能均超越了其他模型，综合成功率高达 96.3%，位列第一。

首个零样本跨本体泛化开源具身模型：智源RoboBrain-X0 技术细节全解析图6

Libero仿真评测结果

更为关键的是，在更具挑战性的真机评测中，RoboBrain-X0 的总体成功率达到了 48.9%，几乎是基线模型 π0（19.8%）的 2.5 倍。特别是在基础抓放任务中，RoboBrain-X0 甚至实现了 100% 的成功率。

首个零样本跨本体泛化开源具身模型：智源RoboBrain-X0 技术细节全解析图7

真机评测结果，在空间关系理解（任务1）、基础抓放（任务2）、类别泛化（任务3）、多目标处理（任务4）任务上全面超越π0

这些数据证明，RoboBrain-X0 所采用的跨本体通用架构，能够有效将抽象的「任务意图」转化为精准的物理动作，其零样本泛化能力并非停留在模拟层面，而是在复杂的真实物理世界中稳定、可靠，为具身智能从实验室走向产业化落地奠定了坚实的基础。

迈向「一个基座，N种身体」的新时代

RoboBrain-X0 在工程层面实现了基于一个统一的预训练基座，在零微调条件下驱动多种异构真实机器人完成复杂任务。

RoboBrain-X0 的开源，不仅为全球具身智能行业提供了一个可复用、可扩展的通用基座，也为智能机器人规模化落地打开了新局面。

对开发者和学术界而言，研发重心将从底层的重复造轮子，转向高层的创新与应用；对于产业链，机器人产品的智能能力将像安装APP一样实现快速适配，并能基于通用基座持续拓展；数据资产也将在更大范围内流动和增值，促进软硬件解耦和生态繁荣。

当然，通用具身智能的终极目标仍然遥远。RoboBrain-X0 在复杂人机交互、动态环境理解、自主学习等方向还需持续进化。但通过统一动作空间和分层推理框架的落地，「一个大脑，多种身体」已从愿景变为现实的工程起点。

正如团队所言：「我们希望 RoboBrain-X0 能成为连接不同身体、不同环境、不同任务的通用智能枢纽。」

从今天起，全球「具身智能基座」的竞赛，或许才刚刚开始。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com