在多机器人协作领域,“全能性” 始终是难以跨越的障碍——现有方案要么受限于单机器人记忆,无法实现长期经验复用;要么难以协调异构机器人团队,面对任务增量或设备故障就 “瘫痪”。
而由北京大学、北京智源人工智能研究院等团队联合提出的RoboOS-NeXT,用 “时空 - 实体统一记忆(STEM)+ 大脑 - 小脑分层架构” 的创新思路,打破了这一困局:既借助 STEM 整合全局场景、历史事件与机器人能力,实现跨维度信息共享;又通过脑模型全局规划与小脑局部执行的闭环,确保任务动态分配与故障容错,最终在餐厅、超市、家庭等场景中,实现了 “跨任务、跨机器人、跨环境” 的全能协作。
-
文章标题:RoboOS-NeXT: A Unified Memory-based Framework for Lifelong, Scalable, and Robust Multi-Robot Collaboration
-
文章链接:https://arxiv.org/pdf/2510.26536
-
RoboOS-NeXT 官方项目页:https://flagopen.github.io/RoboOS/
为什么要重构多机器人协作的框架?
当前多机器人协作方案陷入了 “三重困境”:要么依赖单机器人记忆,无法积累长期经验;要么难以适配异构机器人,面对团队扩容就 “失控”;要么缺乏故障恢复能力,设备离线就导致任务中断,核心问题可归结为 “无法同时兼顾‘终身适应性’‘协作扩展性’与‘调度鲁棒性’”:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
这些方案都忽略了一个关键:多机器人协作是 “全局记忆共享” 与 “分层执行闭环” 的结合——既需要统一的信息中枢存储场景、历史与机器人状态,又能通过高层规划与低层控制的联动,灵活应对任务变化与设备故障。
RoboOS-NeXT 正是借鉴这一逻辑:用 STEM 构建全局共享记忆(衔接跨维度信息),再通过脑 - 小脑架构实现 “规划 - 执行 - 记忆更新” 的闭环(解决动态协作与故障恢复),最终达成 “从信息整合到高效执行” 的完整链路。
RoboOS-NeXT:如何用 “记忆 + 分层架构” 实现通用多机器人协作?
RoboOS-NeXT 的核心设计可概括为 “不依赖单机器人局部信息,而是以 STEM 为统一记忆中枢,串联‘全局任务分解 - 拓扑任务分配 - 分布式执行 - 动态记忆更新’ ”。它既保留全局信息共享的扩展性,又通过分层架构解决动态协作与故障容错问题,具体分为两大核心组件与四大执行步骤:

核心组件 1:时空 - 实体统一记忆(STEM)—— 多机器人的 “共享大脑”
STEM 是 RoboOS-NeXT 的信息核心,它整合了 “空间场景几何、时间事件历史、机器人实体属性” 三大维度,为所有机器人提供统一的信息接口,彻底解决 “信息孤岛” 问题,其在任意时刻的状态定义为:
其中, 通过确定性更新算子 ,将初始状态 与时间戳事件流 融合,生成实时记忆状态; 包含空间记忆 (场景几何与语义)、时间记忆 (事件历史与工具反馈)、实体记忆 (机器人能力与状态)三大模块,三个维度的设计逻辑如下:
空间记忆(Tree-Graph 结构):记录 “场景在哪里、物体是什么”
空间记忆采用 “树形场景 + 图结构物体” 的分层设计,精准描述全局场景与局部物体关系,关键实现依赖两类核心公式:
场景树与 SLAM 地图对齐:通过刚体变换,将 3D 重建点云与 2D SLAM 地图匹配,确保场景拓扑定位一致性:
其中,为 3D 重建点,为 SLAM 地图,将 3D 点投影至地图坐标系,为地图中匹配的 2D 关键点,为重建到 SLAM 的刚体变换矩阵(为刚体变换群)。
物体关系图更新:通过几何谓词判断物体间空间关系,生成动态边集:
其中,为物体节点(存储类别、位姿等属性),为空间关系(如 “在... 上”“在... 内”),为几何谓词函数(通过距离、角度判断关系是否成立),为物体关系图的边集。
空间记忆的操作通过三类原语实现:添加物体()、删除物体()、移动物体(),例如移动物体时,更新位姿并重新计算关系:
其中, 为增量刚体变换, 为变换复合,确保物体移动后,空间关系实时更新。
时间记忆(Queue 结构):记录 “任务做了什么、反馈是什么”
时间记忆是一个 “仅追加、按时间排序” 的事件队列,初始状态为空 ,其更新逻辑为:
其中, 包含事件时间戳 、空间记忆变化 、实体记忆变化 、全局任务 ID g、子任务前置队列 、工具调用日志 ,作用是为长序列任务提供历史上下文,例如机器人可通过时间记忆回溯 “苹果曾被放入冰箱”,避免重复寻找不存在的物体。
实体记忆(Agent 结构):记录 “机器人能做什么、状态怎么样”
实体记忆为每个机器人 建立 “能力 - 状态” 档案,实时同步机器人属性,包括位置 (关联场景树节点)、技能库 (导航、抓取等)、资源 (电池 / CPU)、传感器快照 (视觉 / 触觉)、可用性 。更新方式为 “心跳触发”:每间隔 时间,机器人发送状态事件刷新档案,工具插拔或能力变化时触发类型化更新,确保任务分配时 “选对机器人、用对技能”。
核心组件 2:脑 - 小脑架构(Brain-Cerebellum)—— 协作的 “规划与执行闭环”
脑 - 小脑架构将 “全局规划” 与 “局部执行” 分离,既保证任务分解的合理性,又确保动作执行的精准性,其中脑模型的任务分解逻辑通过以下公式实现:
其中, 为多模态信息融合, 分别为 STEM 的空间 / 时间 / 实体记忆片段, 为全局任务指令,输出 (结构化推理轨迹)与 (任务流图); 进一步定义为:
其中,n 为子任务数量, 为子任务描述, 为深度索引(同深度子任务并行执行), 为分配的机器人群体,两层的分工如下:
脑模型(Brain Model):负责 “全局任务怎么做、谁来做”
脑模型是多机器人的 “指挥中心”,基于 STEM 提供的全局信息,完成两项核心工作:
-
任务分解:接收人类指令(如 “整理餐桌”)后,通过检索增强生成(RAG)从 STEM 中提取场景信息(桌子位置)、历史反馈(上次整理用了 3 步)、机器人状态(机器人 A 空闲),生成上述任务流图 ; -
动态调度:实时监控任务进度与机器人状态,若某机器人离线(如机器人 B 故障),立即从 STEM 查询空闲且有对应技能的机器人(如机器人 C),重新分配任务,确保协作不中断。
小脑模型(Cerebellum Model):负责 “具体动作怎么执行、出错怎么改”
小脑模型是每个机器人的 “执行终端”,基于脑模型的子任务指令,完成低延迟、高容错的动作控制,其工具调用逻辑依赖 STEM 的三类记忆:
-
时间记忆中的 “工具调用历史”(如上次 “寻找叉子” 用了 “检测 + 导航” 工具);
-
空间记忆中的 “机器人 - 物体拓扑关系”(如叉子可能在餐边柜);
-
实体记忆中的 “机器人技能匹配”(如机器人 A 具备抓取工具权限),例如 “寻找鸡蛋” 失败时,小脑可通过空间记忆推断 “鸡蛋在冰箱”,调用导航工具移动并重新检测,实现故障自恢复。
四大执行步骤:多机器人协作的 “工作流”
基于 STEM 与脑 - 小脑架构,RoboOS-NeXT 实现了 “从指令到执行” 的完整流程,四个步骤环环相扣,确保任务高效完成:

全局任务分解:脑模型接收人类指令,融合 STEM 的空间、时间、实体记忆,生成结构化任务流图(明确子任务、执行机器人、依赖关系);
拓扑任务分配:监控器(Monitor)根据任务流图的依赖关系,并行分配同层级子任务(如 “机器人 A 收盘子、机器人 B 收杯子”),串行执行有依赖的子任务(如 “先收完盘子,再擦桌子”);
分布式子任务执行:每个子任务对应一个机器人代理(Agent),代理调用小脑技能库的工具,结合 STEM 记忆动态调整动作;
动态记忆更新:机器人执行动作时,实时更新 STEM 的空间(如鸡蛋被从冰箱取出)、时间(如 “寻找鸡蛋” 任务完成)、实体(如机器人 A 电池消耗 10%)记忆,为后续任务提供最新信息。
实验结果:“全能型” 协作方案如何碾压传统方法?
RoboOS-NeXT 在 “模拟 + 真实” 双场景、“终身任务 + 异构团队 + 故障场景” 三大维度下的实验,彻底验证了其通用性,核心结论可概括为 “终身适应稳、协作扩展强、故障恢复快”,关键实验数据与对应图表如下:
终身适应性测试:长序列任务 “越做越熟练”
在餐厅、超市、家庭场景中,将任务按难度分为 “简单(直接指令,如取杯子)、中等(条件推理,如 “没叉子就去餐边柜拿”)、复杂(全局规划,如 “整理整个客厅”)” 三类,对比 “有 STEM 记忆” 与 “无记忆基线” 的性能,结果如表 I 所示:

-
关键指标 Marginal Success Rate(MSR,长序列最后一个任务的成功率):无记忆基线在长序列(5 个任务)下完全失效(如餐厅中等难度任务 MSR=0%),而 RoboOS-NeXT 保持 75% 以上成功率,证明记忆能维持长期任务能力; -
效率指标 Average Execution Steps per Task(AEST,完成任务的平均步数):RoboOS-NeXT 的 AEST 比基线低 20%-70%,例如家庭中等难度任务从 41.4 步降至 15.5 步(-61%),证明历史经验复用能大幅提升效率; -
复杂任务表现:面对 40-50 个节点的复杂场景,RoboOS-NeXT 仍保持 60% 左右的 MSR(如超市复杂任务 MSR=63.5%),且 AEST 降低 70%,证明其能应对全局规划需求。
协作扩展性测试:机器人越多 “协作越高效”
测试 “同构机器人扩容”(1→3→5 个轮式机器人)与 “异构机器人协作”(人形 + 轮式、四足 + 轮式)的性能,结果如表 II所示:

-
效率提升:同构机器人从 1 个增至 5 个时,AEST 从 34.8 步降至 8.5 步(降低 76%),Success per Step(每步成功率)从 2.20%/ 步升至 8.20%/ 步(提升 373%),证明并行协作能大幅加速任务; -
鲁棒性稳定:即使机器人数量增加或类型异构(如人形 + 轮式),任务成功率(SR)仅轻微下降(最多降低 9%),例如 “人形 + 轮式” 协作的 SR 仍达 72.5%,证明 STEM 能有效协调异构能力。
调度鲁棒性测试:故障场景 “容错能力强”
模拟三类常见故障(E1:机器人离线、E2:工具失效、E3:脑模型幻觉),对比 RoboOS-NeXT 与无记忆基线的表现,结果如表 III所示:

-
机器人离线(E1):基线 SR 从 81.6% 降至 44.5%,而 RoboOS-NeXT 仅降至 87.6%(提升 97%),因 STEM 能实时检测离线状态,快速分配备用机器人; -
工具失效(E2):基线 SR 暴跌至 23.5%,而 RoboOS-NeXT 保持 71.3%(提升 203%),因小脑能通过 STEM 检索其他可用工具(如抓取工具失效时用推工具替代); -
脑模型幻觉(E3):基线 SR 降至 31.0%,而 RoboOS-NeXT 达 78.5%(提升 153%),因时间记忆能验证 “脑模型生成的‘苹果在桌子上’与历史记录‘苹果在冰箱’矛盾”,修正错误指令。
消融实验:STEM 三大维度 “缺一不可”
通过禁用 STEM 的空间、时间或实体记忆,验证各维度的必要性,结果如表 IV 所示:

-
无空间记忆:机器人无法定位场景与物体,需反复探索,AEST 从 11.6 步增至 58.1 步,SR 从 89.2% 降至 24.2%; -
无时间记忆:机器人丢失历史上下文,任务执行 “开环化”,虽 AEST 降至 8.7 步(动作更短),但 SR 暴跌至 38.3%; -
无实体记忆:无法获取机器人能力与状态,任务分配 “无的放矢”,SR 直接降至 0%,证明实体记忆是协作的基础。
失败分析:系统瓶颈与优化方向
对餐厅场景 200 次实验中的 53 次失败案例分析,发现三类主要故障源:

子任务生成错误(24.5%):复杂任务流图的依赖关系排序错误,导致子任务执行顺序混乱;
工具调用错误(45.3%):工具参数与物体位姿不匹配(如导航目标漂移到邻近物体),语义对齐精度不足;
记忆操作错误(30.2%):长序列任务中,记忆更新噪声累积,导致时间一致性下降,未来需通过 “任务流图正则化”“工具参数语义 grounding”“记忆更新滤波” 优化。
关键结论与未来方向
RoboOS-NeXT 的价值,在于为多机器人协作提供了 “用统一记忆解决信息共享,用分层架构解决动态执行” 的清晰路径,核心启示与未来方向如下:
核心结论
统一记忆是协作的基石:STEM 整合 “空间 - 时间 - 实体” 信息,彻底打破单机器人的信息壁垒,为终身适应、弹性协作、鲁棒调度提供数据支撑;
分层架构平衡 “全局与局部”:脑模型负责全局规划,确保任务分解合理;小脑模型负责局部执行,确保动作精准容错,两者结合实现 “规划 - 执行 - 记忆” 的闭环;
鲁棒性源于 “记忆 + 动态调度”:通过 STEM 实时同步状态,脑模型动态调整任务分配,即使面对机器人离线、工具失效,也能快速恢复协作,这一结论在真实场景验证中同样成立 —— 例如餐厅场景中,Unitree G1 人形机器人与 Agilex 双臂机器人协作完成 “汉堡制备与配送”,家庭场景中 Realman 单臂与 Agilex 双臂机器人联合取物,均实现高效协同。

未来方向
多模态记忆增强:当前 STEM 依赖视觉与几何信息,未来可加入触觉、声音等模态,提升复杂场景(如黑暗环境、柔性物体)的适应性;
端到端任务优化:当前任务分解需人工定义依赖关系,未来可通过强化学习让脑模型自动学习最优任务流,减少人工干预;
实时性提升:当前 STEM 更新与任务分配存在轻微延迟,可通过模型轻量化、边缘计算加速,适配高动态场景(如超市人流高峰时的货物补给)。
总结
RoboOS-NeXT 的出现,打破了 “多机器人协作要么终身适应差、要么扩展能力弱、要么鲁棒性低” 的僵局 —— 它没有陷入 “局部优化” 的误区,而是通过 “STEM 统一记忆 + 脑 - 小脑分层架构” 的简洁逻辑,实现了 “跨任务、跨机器人、跨环境” 的通用协作。对于追求 “规模化落地” 的工业场景(如仓储物流)或家庭服务场景(如智能家居机器人团队),这种 “兼顾通用性与实用性” 的方案,为多机器人协作技术的产业化提供了极具参考价值的范本。