宾夕法尼亚大学!MAESTRO:基于VLM的零样本通用机器人框架

具身智能之心 2025-11-05 08:00

MAESTRO 是一种以视觉语言模型(VLM)为核心的模块化机器人框架,通过动态组合感知、规划、控制等专用模块,在无需大规模机器人训练数据的情况下,实现了超越现有视觉语言动作(VLA)模型的零样本操作性能,同时具备可扩展性、可调试性等优势。
  • 论文链接:https://arxiv.org/pdf/2511.00917
宾夕法尼亚大学!MAESTRO:基于VLM的零样本通用机器人框架图2

主要创新点

当前通用机器人的主流研发路径依赖大规模“观测-动作”机器人数据集,通过端到端训练VLA模型实现通用能力,但机器人数据稀缺且采集成本高,导致该路径进展受限。

MAESTRO 选择了一条差异化路径,核心创新动机包括:

  • 利用VLM已有的强大通用能力,避免对机器人专属数据的依赖;
  • 通过模块化设计整合机器人领域成熟的专用工具,弥补VLM在低级别操作上的不足;
  • 突破传统模块化系统的刚性约束,实现动态自适应的任务规划与执行。

核心架构与关键设计

1. 整体框架

MAESTRO 以VLM编码代理为核心,接收语言指令和场景图像后,动态编写代码组合工具模块,形成程序化策略。框架采用闭环交互机制,在执行过程中持续监控环境反馈,实时调整代码和动作,构成“感知-动作-学习”的自适应循环。

宾夕法尼亚大学!MAESTRO:基于VLM的零样本通用机器人框架图3

2. 核心模块工具集

模块设计遵循六大原则,覆盖多维度机器人操作需求:

  • 感知模块:采用“粗到精”层级,包括原始传感输入、分割中心、VLM选择的任务相关关键点,以及主动感知(如手腕相机缩放、环视),提升视觉信息获取精度;
  • 几何与线性代数模块:提供向量构建、距离测量、旋转计算等工具,强化空间推理能力;
  • 控制模块:整合笛卡尔控制、夹爪控制,以及基于点云的无碰撞运动规划,保障操作安全性和可靠性;
  • 预训练视觉运动策略:包含抓取模型(GraspGen)和VLA模型(π₀.₅),并通过本地部署的VLM监控器(2Hz频率)实现VLA执行的精准中断;
  • 图像编辑模块:支持绘制关键点、叠加6D姿态,增强VLM的视觉接地能力;
  • 移动操作扩展模块:新增移动基座状态估计、主动感知工具(左右环视、地面观察等)、导航与微调工具,适配移动机器人场景。
宾夕法尼亚大学!MAESTRO:基于VLM的零样本通用机器人框架图4

3. 闭环规划与重规划机制

  • 初始规划:将任务分解为子步骤,生成对应执行代码;
  • 执行反馈:获取代码输出、机器人状态和场景图像,评估子目标是否达成;
  • 动态调整:成功则规划下一步,失败则诊断原因并重写代码,移动场景下还会主动环视构建完整环境认知。

4. 基于历史运行的进化机制

通过数据库记录过往任务的执行代码、输出结果和成败分析,在新任务执行前为VLM提供上下文示例,使其借鉴历史经验优化代码生成,实现少量真实世界试验后的性能提升。

实验结果与性能分析

实验设置

硬件平台:桌面操作采用7自由度Franka Panda机械臂,移动操作采用Unitree Go2-W轮式四足机器人搭载机械臂;

任务覆盖:7项桌面操作任务(如折叠毛巾、开门、用刀切香蕉等)和4项移动操作任务(如收集玩具、投掷垃圾等);

评估标准:采用STAR-Gen分类法生成5组差异化试验,以任务完成进度(0-100分)量化性能。

宾夕法尼亚大学!MAESTRO:基于VLM的零样本通用机器人框架图5

核心性能优势

  • 桌面操作:在7项任务中的6项大幅超越现有VLA模型(π₀、π₀.₅)和代码即策略(CaP)基线,尤其在语义推理、长时记忆相关任务中表现突出,例如“旋转立方体使紫色面朝上”“擦除白板后堆叠杯子”等任务,VLA模型因缺乏明确记忆机制和空间推理能力进展甚微,而MAESTRO凭借模块化工具组合实现高效完成;
  • 移动操作:四项任务均实现高完成度,其中“搜索物品并返回”任务达96.0±8.9分,“按按钮开门”任务达93.3±14.9分,长时任务因多阶段交互导致完成度略低,但语义地图缓存机制有效提升了目标追踪效率;
  • 进化能力:在开门任务中,初始完成度仅35%,经过三次进化迭代后,通过优化抓取方式和旋转计算,完成度提升至85.0±7.4分。
宾夕法尼亚大学!MAESTRO:基于VLM的零样本通用机器人框架图6
宾夕法尼亚大学!MAESTRO:基于VLM的零样本通用机器人框架图7

关键模块 ablation 分析

  • 去除高级感知模块(任务相关关键点、主动感知)后,折叠毛巾任务完成度从71.3±21.4降至40.0±7.1,旋转立方体任务从60.0±38.1降至25.0±0.0,表明精准感知是复杂操作的基础;
  • 去除几何模块后,旋转立方体任务完成度降至42.5±31.8,验证了空间推理工具对需姿态调整的任务至关重要。
宾夕法尼亚大学!MAESTRO:基于VLM的零样本通用机器人框架图8
宾夕法尼亚大学!MAESTRO:基于VLM的零样本通用机器人框架图9

写在最后

MAESTRO 证明了“VLM+模块化工具”的框架可作为大规模机器人数据训练路径的有效替代方案,通过精简手动设计的刚性流程、扩大工具集的广度和质量,实现了通用机器人操作能力的突破。

未来拓展方向包括:优化VLM推理速度以降低 latency、增强低级别精细控制能力、提升复杂场景下的推理稳定性,随着VLM硬件优化和模型蒸馏技术的发展,这类模块化系统有望在资源受限的实时部署场景中广泛应用。

参考

[1] MAESTRO: Orchestrating Robotics Modules with Vision-Language Models for Zero-Shot Generalist Robots

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
这家焊接机器人研发商,完成亿元级融资!
净利润激增232.35%!国内工业机器人龙头发布第三季报
1.3个亿!国内汽车密封条龙头拟增资特种机器人头部研发商
我们搞了一台没脑袋的机器人,看它能不能干点人事
人形机器人门槛降了,然后呢?
全球首个家务机器人开卖!月租3600,拿瓶水要1分钟,还得真人遥控
汽车Tier1的下一个十年,赌在机器人?
人形机器人发展的技术瓶颈
2025年全球及中国智能焊接机器人行业发展历程、产业链、市场现状及趋势研判:行业仍处于初期阶段,渗透率将不断提升[图]
「敏捷医疗」获数亿元B轮融资,加速腔镜手术机器人临床应用|早起看早期
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号