-
论文链接:https://arxiv.org/pdf/2511.00917

主要创新点
当前通用机器人的主流研发路径依赖大规模“观测-动作”机器人数据集,通过端到端训练VLA模型实现通用能力,但机器人数据稀缺且采集成本高,导致该路径进展受限。
MAESTRO 选择了一条差异化路径,核心创新动机包括:
-
利用VLM已有的强大通用能力,避免对机器人专属数据的依赖; -
通过模块化设计整合机器人领域成熟的专用工具,弥补VLM在低级别操作上的不足; -
突破传统模块化系统的刚性约束,实现动态自适应的任务规划与执行。
核心架构与关键设计
1. 整体框架
MAESTRO 以VLM编码代理为核心,接收语言指令和场景图像后,动态编写代码组合工具模块,形成程序化策略。框架采用闭环交互机制,在执行过程中持续监控环境反馈,实时调整代码和动作,构成“感知-动作-学习”的自适应循环。

2. 核心模块工具集
模块设计遵循六大原则,覆盖多维度机器人操作需求:
-
感知模块:采用“粗到精”层级,包括原始传感输入、分割中心、VLM选择的任务相关关键点,以及主动感知(如手腕相机缩放、环视),提升视觉信息获取精度; -
几何与线性代数模块:提供向量构建、距离测量、旋转计算等工具,强化空间推理能力; -
控制模块:整合笛卡尔控制、夹爪控制,以及基于点云的无碰撞运动规划,保障操作安全性和可靠性; -
预训练视觉运动策略:包含抓取模型(GraspGen)和VLA模型(π₀.₅),并通过本地部署的VLM监控器(2Hz频率)实现VLA执行的精准中断; -
图像编辑模块:支持绘制关键点、叠加6D姿态,增强VLM的视觉接地能力; -
移动操作扩展模块:新增移动基座状态估计、主动感知工具(左右环视、地面观察等)、导航与微调工具,适配移动机器人场景。

3. 闭环规划与重规划机制
-
初始规划:将任务分解为子步骤,生成对应执行代码; -
执行反馈:获取代码输出、机器人状态和场景图像,评估子目标是否达成; -
动态调整:成功则规划下一步,失败则诊断原因并重写代码,移动场景下还会主动环视构建完整环境认知。
4. 基于历史运行的进化机制
通过数据库记录过往任务的执行代码、输出结果和成败分析,在新任务执行前为VLM提供上下文示例,使其借鉴历史经验优化代码生成,实现少量真实世界试验后的性能提升。
实验结果与性能分析
实验设置
硬件平台:桌面操作采用7自由度Franka Panda机械臂,移动操作采用Unitree Go2-W轮式四足机器人搭载机械臂;
任务覆盖:7项桌面操作任务(如折叠毛巾、开门、用刀切香蕉等)和4项移动操作任务(如收集玩具、投掷垃圾等);
评估标准:采用STAR-Gen分类法生成5组差异化试验,以任务完成进度(0-100分)量化性能。

核心性能优势
-
桌面操作:在7项任务中的6项大幅超越现有VLA模型(π₀、π₀.₅)和代码即策略(CaP)基线,尤其在语义推理、长时记忆相关任务中表现突出,例如“旋转立方体使紫色面朝上”“擦除白板后堆叠杯子”等任务,VLA模型因缺乏明确记忆机制和空间推理能力进展甚微,而MAESTRO凭借模块化工具组合实现高效完成; -
移动操作:四项任务均实现高完成度,其中“搜索物品并返回”任务达96.0±8.9分,“按按钮开门”任务达93.3±14.9分,长时任务因多阶段交互导致完成度略低,但语义地图缓存机制有效提升了目标追踪效率; -
进化能力:在开门任务中,初始完成度仅35%,经过三次进化迭代后,通过优化抓取方式和旋转计算,完成度提升至85.0±7.4分。


关键模块 ablation 分析
-
去除高级感知模块(任务相关关键点、主动感知)后,折叠毛巾任务完成度从71.3±21.4降至40.0±7.1,旋转立方体任务从60.0±38.1降至25.0±0.0,表明精准感知是复杂操作的基础; -
去除几何模块后,旋转立方体任务完成度降至42.5±31.8,验证了空间推理工具对需姿态调整的任务至关重要。


写在最后
MAESTRO 证明了“VLM+模块化工具”的框架可作为大规模机器人数据训练路径的有效替代方案,通过精简手动设计的刚性流程、扩大工具集的广度和质量,实现了通用机器人操作能力的突破。
未来拓展方向包括:优化VLM推理速度以降低 latency、增强低级别精细控制能力、提升复杂场景下的推理稳定性,随着VLM硬件优化和模型蒸馏技术的发展,这类模块化系统有望在资源受限的实时部署场景中广泛应用。
参考
[1] MAESTRO: Orchestrating Robotics Modules with Vision-Language Models for Zero-Shot Generalist Robots