ExploreVLM：基于视觉-语言模型的闭环机器人探索任务规划框架

点击下方卡片，关注“具身智能之心”公众号

作者丨Zhichen Lou等
编辑丨具身智能之心
本文只做学术分享，如有侵权，联系删文

>>点击进入→具身智能之心技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

研究背景与核心问题

随着具身智能的发展，机器人逐渐融入日常生活作为人类助手，这要求机器人能解读高层指令、感知动态环境并实时调整计划。视觉-语言模型（VLMs）因融合视觉理解与语言推理能力，成为机器人任务规划的重要方向，但其现有方法在三方面存在明显局限：

交互式探索能力不足，难以处理需要主动获取信息的场景（如确定哪个抽屉只放水果）；
感知精度有限，对物体空间关系和动态变化的捕捉不够结构化；
计划适应性差，多为开环静态规划，无法基于实时反馈调整，易在复杂环境中失败(figure 1)。

为此，本文提出ExploreVLM框架，通过闭环设计整合感知、规划与执行验证，解决上述问题。

核心框架设计

ExploreVLM以“感知-规划-执行-验证”的闭环为核心，整体流程如下(figure 2)：

输入初始RGB图像和任务目标（如“将水果放入只装水果的抽屉”）；
场景感知模块提取目标中心空间关系图，结构化描述物体类别、属性及空间关系；
双阶段规划器基于和目标，生成探索阶段（）和完成阶段（）的子目标与动作序列，并通过自反思优化；
机器人执行当前步骤后，执行验证器对比执行前后的和，生成反馈；
规划器基于动态调整计划，重复闭环直至任务完成。

关键模块解析

1. 目标中心空间关系图（场景感知）

传统场景感知多为零散的物体检测，难以支撑复杂推理。该模块构建结构化图表示：

节点：标注语义属性的物体（如“抽屉（蓝色，关闭）”“香蕉（黄色）”）；
有向边：物体间空间关系（如“上方”“前方”“左侧”）(figure 3)。

构建流程分两步：先用GroundedSAM2分割图像并标注物体类别，再结合任务指令，通过VLM推理空间关系，将2D图像转化为语言可理解的3D空间结构，为规划提供明确的“环境语法”。

2. 双阶段自反思规划器

针对任务中“未知信息探索”与“目标达成”的分离需求，设计两阶段规划：

探索阶段（）：当关键信息缺失时（如不确定哪个抽屉装水果），生成探索子目标（如“检查所有抽屉内容”）及对应动作（如“打开橙色抽屉”“打开蓝色抽屉”）；
完成阶段（）：基于探索结果，生成达成最终目标的动作序列（如“将香蕉放入蓝色抽屉”）。

自反思机制通过链-of-thought（CoT）推理修正计划，解决LLM幻觉问题：

验证阶段目标有效性（如探索结果是否能支撑完成阶段）；
检查动作逻辑一致性（如“抓取”需在“放置”前，“打开”需先移除前方障碍物）；
处理障碍物（基于空间关系图识别前方物体，优先移开）(figure 4)。

3. 执行验证器

为避免误差累积，采用逐步验证机制：

对比执行前后的和，判断动作是否成功（如“是否真的打开了抽屉”）；
验证当前子目标是否达成（如“是否确认了目标抽屉”）；
若失败，返回具体原因（如“抓取失败”“存在未移除的障碍物”），触发重新规划。

该模块确保每一步反馈实时接入闭环，支撑动态调整。

实验验证

1. 实验设置

在真实机器人平台（UR5机械臂+Robotiq夹爪+Intel RealSense相机）上，设计5个递增复杂度的任务：

基础执行与反馈（Task 1：将桌上物体放入纸箱，含隐藏物体）；
任务逻辑推理（Task 2：只将面包放在盘子上，需先移开茄子）；
探索与识别（Task 3：找到百事可乐，需区分雪碧）；
探索与常识推理（Task 4：将需冷藏的物体放入冰箱）；
复杂交互（Task 5：将水果放入只装水果的抽屉，含障碍物）。

对比基线方法ReplanVLM和VILA，均使用GPT-4o作为VLM，注入50%的动作失败率以测试鲁棒性。

2. 核心结果

平均成功率：ExploreVLM达94%，远超ReplanVLM（22%）和VILA（30%）(table 1)；

优势原因：

空间关系图提升场景理解精度（如准确识别Task 5中阻碍抽屉的杯子）；
双阶段规划解决探索性任务困境（如Task 3中ReplanVLM陷入死循环，而ExploreVLM通过探索准确定位百事）；
自反思修正逻辑错误（如避免“抓取后直接打开”的不合理序列）；
逐步验证增强抗噪声能力（如及时检测抓取失败并重试）。

3. 消融实验

在最复杂的Task 5中移除核心模块后，性能大幅下降(table 2)：

移除空间关系图：无法识别障碍物、误判物体（如把杯子当香蕉）；
移除双阶段自反思：无法通过探索确定目标抽屉，动作逻辑混乱（如握香蕉时试图开抽屉）；
移除执行验证器：失去闭环反馈，无法利用探索信息，难以从动作失败中恢复。

结果证明三模块协同是框架成功的关键。

参考

[1]ExploreVLM: Closed-Loop Robot Exploration Task Planning with Vision-Language Models

资讯配图