ExploreVLM:基于视觉-语言模型的闭环机器人探索任务规划框架

具身智能之心 2025-08-20 08:00

点击下方卡片,关注“具身智能之心”公众号


作者丨Zhichen Lou等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

资讯配图

研究背景与核心问题

随着具身智能的发展,机器人逐渐融入日常生活作为人类助手,这要求机器人能解读高层指令、感知动态环境并实时调整计划。视觉-语言模型(VLMs)因融合视觉理解与语言推理能力,成为机器人任务规划的重要方向,但其现有方法在三方面存在明显局限:

  1. 交互式探索能力不足,难以处理需要主动获取信息的场景(如确定哪个抽屉只放水果);
  2. 感知精度有限,对物体空间关系和动态变化的捕捉不够结构化;
  3. 计划适应性差,多为开环静态规划,无法基于实时反馈调整,易在复杂环境中失败(figure 1)。
资讯配图

为此,本文提出ExploreVLM框架,通过闭环设计整合感知、规划与执行验证,解决上述问题。

核心框架设计

ExploreVLM以“感知-规划-执行-验证”的闭环为核心,整体流程如下(figure 2):

资讯配图
  1. 输入初始RGB图像和任务目标(如“将水果放入只装水果的抽屉”);
  2. 场景感知模块提取目标中心空间关系图,结构化描述物体类别、属性及空间关系;
  3. 双阶段规划器基于和目标,生成探索阶段()和完成阶段()的子目标与动作序列,并通过自反思优化;
  4. 机器人执行当前步骤后,执行验证器对比执行前后的,生成反馈
  5. 规划器基于动态调整计划,重复闭环直至任务完成。

关键模块解析

1. 目标中心空间关系图(场景感知)

传统场景感知多为零散的物体检测,难以支撑复杂推理。该模块构建结构化图表示

  • 节点:标注语义属性的物体(如“抽屉(蓝色,关闭)”“香蕉(黄色)”);
  • 有向边:物体间空间关系(如“上方”“前方”“左侧”)(figure 3)。
资讯配图

构建流程分两步:先用GroundedSAM2分割图像并标注物体类别,再结合任务指令,通过VLM推理空间关系,将2D图像转化为语言可理解的3D空间结构,为规划提供明确的“环境语法”。

2. 双阶段自反思规划器

针对任务中“未知信息探索”与“目标达成”的分离需求,设计两阶段规划:

  • 探索阶段():当关键信息缺失时(如不确定哪个抽屉装水果),生成探索子目标(如“检查所有抽屉内容”)及对应动作(如“打开橙色抽屉”“打开蓝色抽屉”);
  • 完成阶段():基于探索结果,生成达成最终目标的动作序列(如“将香蕉放入蓝色抽屉”)。

自反思机制通过链-of-thought(CoT)推理修正计划,解决LLM幻觉问题:

  • 验证阶段目标有效性(如探索结果是否能支撑完成阶段);
  • 检查动作逻辑一致性(如“抓取”需在“放置”前,“打开”需先移除前方障碍物);
  • 处理障碍物(基于空间关系图识别前方物体,优先移开)(figure 4)。
资讯配图

3. 执行验证器

为避免误差累积,采用逐步验证机制:

  • 对比执行前后的,判断动作是否成功(如“是否真的打开了抽屉”);
  • 验证当前子目标是否达成(如“是否确认了目标抽屉”);
  • 若失败,返回具体原因(如“抓取失败”“存在未移除的障碍物”),触发重新规划。

该模块确保每一步反馈实时接入闭环,支撑动态调整。

实验验证

1. 实验设置

在真实机器人平台(UR5机械臂+Robotiq夹爪+Intel RealSense相机)上,设计5个递增复杂度的任务:

  • 基础执行与反馈(Task 1:将桌上物体放入纸箱,含隐藏物体);
  • 任务逻辑推理(Task 2:只将面包放在盘子上,需先移开茄子);
  • 探索与识别(Task 3:找到百事可乐,需区分雪碧);
  • 探索与常识推理(Task 4:将需冷藏的物体放入冰箱);
  • 复杂交互(Task 5:将水果放入只装水果的抽屉,含障碍物)。

对比基线方法ReplanVLM和VILA,均使用GPT-4o作为VLM,注入50%的动作失败率以测试鲁棒性。

2. 核心结果

  • 平均成功率:ExploreVLM达94%,远超ReplanVLM(22%)和VILA(30%)(table 1);
资讯配图
  • 优势原因:
    • 空间关系图提升场景理解精度(如准确识别Task 5中阻碍抽屉的杯子);
    • 双阶段规划解决探索性任务困境(如Task 3中ReplanVLM陷入死循环,而ExploreVLM通过探索准确定位百事);
    • 自反思修正逻辑错误(如避免“抓取后直接打开”的不合理序列);
    • 逐步验证增强抗噪声能力(如及时检测抓取失败并重试)。

3. 消融实验

在最复杂的Task 5中移除核心模块后,性能大幅下降(table 2):

资讯配图
  • 移除空间关系图:无法识别障碍物、误判物体(如把杯子当香蕉);
  • 移除双阶段自反思:无法通过探索确定目标抽屉,动作逻辑混乱(如握香蕉时试图开抽屉);
  • 移除执行验证器:失去闭环反馈,无法利用探索信息,难以从动作失败中恢复。

结果证明三模块协同是框架成功的关键。

相关工作对比

  • 传统任务与运动规划(TAMP):侧重符号或优化规划,缺乏自然语言与视觉整合,适应性有限;
  • 现有VLM方法:
    • VILA:直接用GPT-4V生成计划,但缺乏结构化感知,探索与执行脱节;
    • ReplanVLM:虽支持重规划,但依赖阶段末反馈,误差易累积;
    • RoboExp:需依赖先验物体知识,探索步骤冗余。

ExploreVLM通过结构化感知、双阶段规划与逐步闭环,弥补了上述缺陷。

参考

[1]ExploreVLM: Closed-Loop Robot Exploration Task Planning with Vision-Language Models

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
【倒计时2天】第七届国际移动机器人大会即将启幕!
【AI加油站】RPA 流程自动化系列一:《机器人流程自动化魔力象限》市场格局、厂商优劣与选型指南(附PDF下载)
ExploreVLM:基于视觉-语言模型的闭环机器人探索任务规划框架
9.12全球首发!“广东机器人第一股”进军人形机器人,助力注塑行业柔性制造突围
中国主要机器人比赛一览
西湖大学姜汉卿教授团队:全新电磁弹性体驱动机制让微型机器人能爬会跳,低功耗闯荡复杂环境
【机器人】英伟达推出新的Cosmos世界模型,专为机器人和实体应用而设计
全球首款!威迈尔发布人形机器人头部模组OmniHead
「视比特机器人」完成B+轮亿元级融资!加速国产工业具身智能落地
中科慧远重磅发布质检机器人CASIVIBOT,开启具身智能质检新时代
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号