宾夕法尼亚大学！MAESTRO：基于VLM的零样本通用机器人框架

MAESTRO 是一种以视觉语言模型（VLM）为核心的模块化机器人框架，通过动态组合感知、规划、控制等专用模块，在无需大规模机器人训练数据的情况下，实现了超越现有视觉语言动作（VLA）模型的零样本操作性能，同时具备可扩展性、可调试性等优势。

主要创新点

当前通用机器人的主流研发路径依赖大规模“观测-动作”机器人数据集，通过端到端训练VLA模型实现通用能力，但机器人数据稀缺且采集成本高，导致该路径进展受限。

MAESTRO 选择了一条差异化路径，核心创新动机包括：

MAESTRO 以VLM编码代理为核心，接收语言指令和场景图像后，动态编写代码组合工具模块，形成程序化策略。框架采用闭环交互机制，在执行过程中持续监控环境反馈，实时调整代码和动作，构成“感知-动作-学习”的自适应循环。

模块设计遵循六大原则，覆盖多维度机器人操作需求：

通过数据库记录过往任务的执行代码、输出结果和成败分析，在新任务执行前为VLM提供上下文示例，使其借鉴历史经验优化代码生成，实现少量真实世界试验后的性能提升。

硬件平台：桌面操作采用7自由度Franka Panda机械臂，移动操作采用Unitree Go2-W轮式四足机器人搭载机械臂；

任务覆盖：7项桌面操作任务（如折叠毛巾、开门、用刀切香蕉等）和4项移动操作任务（如收集玩具、投掷垃圾等）；

评估标准：采用STAR-Gen分类法生成5组差异化试验，以任务完成进度（0-100分）量化性能。

桌面操作：在7项任务中的6项大幅超越现有VLA模型（π₀、π₀.₅）和代码即策略（CaP）基线，尤其在语义推理、长时记忆相关任务中表现突出，例如“旋转立方体使紫色面朝上”“擦除白板后堆叠杯子”等任务，VLA模型因缺乏明确记忆机制和空间推理能力进展甚微，而MAESTRO凭借模块化工具组合实现高效完成；
移动操作：四项任务均实现高完成度，其中“搜索物品并返回”任务达96.0±8.9分，“按按钮开门”任务达93.3±14.9分，长时任务因多阶段交互导致完成度略低，但语义地图缓存机制有效提升了目标追踪效率；
进化能力：在开门任务中，初始完成度仅35%，经过三次进化迭代后，通过优化抓取方式和旋转计算，完成度提升至85.0±7.4分。

去除高级感知模块（任务相关关键点、主动感知）后，折叠毛巾任务完成度从71.3±21.4降至40.0±7.1，旋转立方体任务从60.0±38.1降至25.0±0.0，表明精准感知是复杂操作的基础；
去除几何模块后，旋转立方体任务完成度降至42.5±31.8，验证了空间推理工具对需姿态调整的任务至关重要。

MAESTRO 证明了“VLM+模块化工具”的框架可作为大规模机器人数据训练路径的有效替代方案，通过精简手动设计的刚性流程、扩大工具集的广度和质量，实现了通用机器人操作能力的突破。

未来拓展方向包括：优化VLM推理速度以降低 latency、增强低级别精细控制能力、提升复杂场景下的推理稳定性，随着VLM硬件优化和模型蒸馏技术的发展，这类模块化系统有望在资源受限的实时部署场景中广泛应用。

[1] MAESTRO: Orchestrating Robotics Modules with Vision-Language Models for Zero-Shot Generalist Robots