NavA3框架:理解任何指令,导航到任何地方找任何目标(清华大学)

具身智能之心 2025-08-08 08:05

点击下方卡片,关注“具身智能之心”公众号


作者丨Lingfeng Zhang等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

资讯配图

研究背景与动机

Embodied navigation(具身导航)是智能体在物理环境中移动和交互的基础能力,但现有研究多聚焦于预定义物体导航或指令跟随,与现实中人类复杂、开放场景的需求存在显著差距。例如,现有视觉-语言导航(VLN)依赖过于具体的分步指令(如“左转、出门、直行”),而物体导航(ObjectNav)仅需找到预定义类别的任意物体,均无法处理“我想喝杯咖啡”这类需要高级推理和空间感知的指令——这类指令不仅需要推断目标物体(咖啡机),还需判断其可能位置(茶水间、厨房),并理解空间关系。

为填补这一空白,本文提出了长视野导航任务,要求智能体理解高级人类指令,在真实环境中完成空间感知的物体导航,并据此设计了分层框架NavA³。

核心贡献

  1. 提出了一项具有挑战性的长视野导航任务,要求智能体在复杂室内环境中理解高级人类指令,定位具有复杂空间关系的开放词汇物体。
  2. 设计了NavA³分层框架,通过全局策略和局部策略的结合,实现对多样高级指令的理解、跨区域导航及任意物体的定位。
  3. 构建了包含100万样本的空间感知物体affordance数据集,用于训练NaviAfford模型,使其能理解复杂空间关系并实现精确物体指向。
  4. 大量实验表明,该方法在导航性能上达到SOTA,为现实场景中通用具身导航系统的发展奠定了基础。

方法框架:NavA³的分层设计

NavA³采用“全局到局部”的分层策略,融合语义推理与精确空间定位,以应对长视野导航任务(figure 2)。

资讯配图

全局策略:解析指令与确定区域

全局策略依赖Reasoning-VLM(推理型视觉-语言模型),核心是将高级人类指令转化为可执行的导航目标。

  • 指令解析与目标推断:给定指令(如“我想喝杯咖啡”),Reasoning-VLM通过语义分解推断目标物体(咖啡机),并结合带标注的全局3D场景,分析空间语义关系以确定目标区域(如茶水间)。例如,对于“挂衣服”的指令,会推断目标为衣架,且最可能在阳台(figure 1)。
资讯配图
  • 场景表示与推理引导:全局3D场景通过RGB图像经2D到3D重建生成,包含房间和区域级语义标注(如“茶水间”“会议室”),表示为:

其中为几何区域,为对应语义标注。Reasoning-VLM通过结构化提示进行推理:“需完成指令I,基于全局场景视图和可选区域,思考需找到的物体及位置,并展示推理过程”(figure 3)。

资讯配图
  • 区域导航:确定目标区域后,在其局部边界内随机采样路径点,由Pointing-VLM引导智能体前往,缩小搜索范围以提升效率。

局部策略:精确物体定位与导航

局部策略聚焦于目标区域内的探索和精确物体定位,核心是NaviAfford模型(Pointing-VLM)。

  • NaviAfford模型:基于100万样本的空间感知数据集训练,能处理物体affordance和空间affordance两类标注:

    模型架构为视觉-语言框架,输入文本查询Q和RGB图像V,输出目标点坐标:

    • 物体affordance:计算方向关系(上下、左右、前后),如“沙发前的电视”;
    • 空间affordance:识别满足约束的自由空间,如“桌子上的空位”。

其中处理文本,编码视觉输入,映射视觉特征至LLM嵌入空间,生成坐标文本(figure 4)。

资讯配图
  • 导航过程:智能体在每个路径点捕获全景RGB视图,NaviAfford模型检测目标物体:
    • 若检测到,输出多个点坐标,取中心点作为定位结果;
    • 坐标转换:通过相机内参将像素坐标转为相机坐标:

再通过旋转和平移转为机器人坐标:

  • 若未检测到,Reasoning-VLM分析局部3D场景和历史数据,决定继续探索当前区域(由NaviAfford确定下一路径点)或切换至新区域。

实验验证

实验在5个场景(会议室A、会议室B、茶水间、工作站、阳台)的50个任务上展开,通过导航误差(NE)和成功率(SR)评估性能,并与SOTA方法对比。

与现有方法的对比

NavA³在所有场景中显著优于现有方法(table 1):

资讯配图
  • 平均成功率达66.4%,较最佳基线MapNav(25.2%)提升41.2个百分点;
  • 各场景成功率提升明显:会议室A(72.0% vs 26.0%)、工作站(76.0% vs 28.0%)等;
  • 导航误差大幅降低:会议室A(1.23m vs 7.21m)、茶水间(1.89m vs 9.12m)等。

通用VLMs(如GPT-4o、Claude-3.5-Sonnet)在该任务中成功率接近零,凸显NavA³分层策略的优势。

消融实验

  • 标注的影响:完整标注使茶水间和工作站的成功率分别提升28.0%和36.0%(table 2),表明语义标注能增强Reasoning-VLM对空间关系的理解。
资讯配图
  • Reasoning-VLM的影响:GPT-4o作为Reasoning-VLM时平均成功率达68.0%,显著高于开源模型(如Qwen2.5-VL-7B的40.0%)(table 3),说明强推理能力对复杂空间任务的重要性。
资讯配图
  • Pointing-VLM的影响:NaviAfford的平均affordance准确率达63.2%,较RoboPoint提升13.0%,对应导航成功率提升10.5%(table 4),验证了空间affordance训练的有效性。
资讯配图

定性分析

figure 5展示了NavA³的实际表现:

资讯配图
  • 能准确理解“笔记本左侧的沙发”“衣柜内的空位”等空间关系;
  • 长视野导航中,从“想喝咖啡”到找到咖啡机的推理过程清晰;
  • 在轮式机器人和四足机器人上均能稳定运行,体现跨载体适应性。

参考

[1]NavA^3: Understanding Any Instruction, Navigating Anywhere, Finding Anything

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
导航
more
高德地图进军低空经济,空中版“高德地图”来了!“空中高德”项目在深圳龙岗落地启航,在深圳龙岗发布空中版 实现飞行器低空导航
视觉-语言-导航(VLN)技术梳理:算法框架、学习范式、四大实践
(备胎视频)导航的8个隐藏功能,你知道几个
导览导航、运动表演…成都造机器人即将上岗世运会
你的空中高德为你导航
机器人定位与导航学习路线图
美军开测量子惯导——无需GPS实现精确导航!
X-Nav:端到端跨平台导航框架,通用策略实现零样本迁移
ICCV25满分论文| MTU3D统一空间理解与主动探索的具身导航
让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号