ICRA-2025 | 低成本、高隐私具身导航!Open-Nav:探索开源LLMs零样本视觉语言导航能力

3D视觉工坊 2025-08-20 07:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:视觉语言导航

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

  • 作者: Yanyuan Qiao, Wenqi Lyu, Hui Wang, Zixu Wang, Zerui Li, Yuan Zhang, Mingkui Tan, Qi Wu
  • 单位:阿德莱德大学澳大利亚机器学习研究所,华南理工大学软件工程学院
  • 论文标题:Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs
  • 论文链接:https://arxiv.org/abs/2409.18794
  • 项目主页:https://sites.google.com/view/opennav
  • 代码链接:https://github.com/YanyuanQiao/Open-Nav

主要贡献

  • 提出Open-Nav方法,探索使用开源大型语言模型(LLMs)进行零样本视觉-语言导航(VLN-CE),解决了依赖昂贵的闭源LLMs(如GPT-4)带来的成本和隐私问题。
  • 采用时空思维链(CoT)方法,通过指令理解、导航进度估计和决策制定三个阶段,增强LLM在导航中的推理能力,并结合RGB和深度数据提升视觉感知和空间推理能力。
  • 模拟和真实环境中验证性能,通过广泛的实验表明,Open-Nav在性能上与使用闭源LLMs的方法相当,同时具有低成本和保护隐私的优势。

研究背景

资讯配图
  • 视觉语言导航(VLN):要求智能体根据文本指令在3D环境中导航。早期研究主要关注离散配置,将导航简化为在预定义图上的移动,但这种方法在真实世界中的适用性有限。
  • 连续环境中的VLN(VLN-CE):为更贴近真实世界导航条件而提出,不依赖预定义图,允许更灵活和真实的导航。
  • 传统方法的局限性:早期方法依赖于大规模、特定领域的数据集进行监督学习,存在对训练数据的依赖以及从模拟到现实的泛化问题。
  • LLMs在VLN中的应用:近年来,利用LLMs作为导航器的研究逐渐兴起,但这些方法大多依赖于API调用,成本高昂且存在隐私问题。

问题定义

任务设定

  • 全景RGB视觉:智能体在每个位置获取全景RGB图像 ,包含12个RGB和12个深度快照,这些快照以30度间隔拍摄,覆盖360度全景。
  • 语言指令:智能体在每次试验中获得语言指令,其语言嵌入表示为 ,其中  是每条指令的单词数。
  • 智能体需要根据指令执行低级动作,如移动方向和距离,以到达目标位置。

挑战

  • 连续环境:与离散环境不同,连续环境中的导航需要考虑更多的因素,如目标距离、潜在障碍物和碰撞风险。
  • 数据隐私:在真实世界应用中,用户可能不愿意将室内环境数据传输到外部服务器,因此需要在本地部署模型以保护隐私。
  • 成本问题:依赖闭源LLMs(如GPT-4)的方法需要频繁调用API,成本高昂。

框架设计

资讯配图

航点预测

从全景RGB和深度图像中识别潜在的导航点:

  • 使用两个ResNet50网络分别提取RGB和深度图像的特征。
  • 将RGB和深度特征融合:
  • 使用两层Transformer网络处理融合后的特征向量,模拟视图之间的空间关系:
  • 生成潜在航点的热图,并通过非极大值抑制(NMS)选择最可能的航点:
  • 从热图中选择  个附近的航点,每个航点由角度和距离定义,为导航提供精确的方向和空间信息。

场景感知

识别场景中的对象及其位置,提取空间关系:

  • 使用 SpatialBot 模型处理RGB和深度图像,生成包含空间信息的丰富场景描述:
  • 使用 RAM 模型进行细粒度对象检测和识别,提取对象的类别和空间坐标:
  • 将检测到的对象及其空间关系整合为文本格式的观察结果,供LLM导航器使用。

LLM导航器的时空思维链

通过指令理解、进度估计和决策制定三个阶段,增强LLM的导航推理能力:

  • 指令理解
    • 将指令分解为动作和地标,以便LLM更好地理解任务要求。
    • 使用特定的提示,例如:"You are an action decomposition expert. Your task is to detect all actions/landmarks in the given navigation instruction. Actions:"
  • 进度估计
    • 通过分析导航历史,评估已完成的动作和地标。
    • 包括地标和动作验证、方向分析、动作完成估计和顺序评估。
  • 决策制定
    • 结合当前环境描述、历史轨迹和指令要求,选择最优的导航路径。
    • LLM根据这些信息生成决策思路,并选择最合适的航点。

实验

实验设置

  • 模拟环境
    • 使用 R2R-CE 数据集,基于 Matterport3D 场景,通过 Habitat Simulator 将离散路径转换为连续环境。
    • 随机采样约100个任务进行评估。
    • 在单个RTX 3090 GPU上运行模型。
  • 真实环境
    • 选择三种不同室内场景:办公室、实验室和游戏室。
    • 每种场景标注20条指令,涵盖简单和复杂导航任务。
    • 使用配备GeForce RTX 3080的笔记本运行模型。
资讯配图

评估指标

使用标准VLN指标评估导航性能,包括:

  • 成功率(SR)
  • Oracle成功率(OSR)
  • 归一化动态时间规整(nDTW)
  • 路径长度加权成功率(SPL)
  • 轨迹长度(TL)
  • 导航误差(NE)

模拟环境实验结果

资讯配图
  • Open-Nav在成功率(SR)和路径长度加权成功率(SPL)等关键指标上优于DiscussNav等基于GPT-4的方法。
  • 使用GPT-4作为导航器时,性能有所提升,但Open-Nav使用开源LLMs仍具有竞争力。

真实环境实验结果

资讯配图
  • Open-Nav在多种场景下均优于传统的监督学习方法(如CMA、RecBERT和BEVBert),显示出更好的泛化能力。
  • Open-Nav在真实环境中达到了SOTA(State-of-the-Art)性能,尤其是在办公室和实验室场景中。
资讯配图

消融研究

不同LLM在指令理解上的表现

资讯配图
资讯配图
  • 使用SPICE、BLEU、METEOR和ROUGE等文本评估指标,比较了Llama3.1-70B、Qwen2-72B、Gemma2-27B和Phi3-14B四种开源LLM在指令理解上的能力。
  • 结果显示,Llama3.1-70B在地标提取上表现最佳,而Qwen2-72B在动作提取上得分最高。

不同LLM在导航中的表现

资讯配图
  • 在实际导航任务中,Llama3.1-70B的导航性能优于其他LLM,具有更高的成功率和更好的路径规划能力。

结论与未来工作

  • 结论
    • Open-Nav通过使用开源LLMs,成功解决了依赖闭源LLMs带来的成本和隐私问题,同时在模拟和真实环境中均取得了与闭源LLMs相当的性能。
    • 该方法通过时空思维链方法和增强的场景感知能力,显著提升了LLM在导航任务中的推理和决策能力。
  • 未来工作
    • 计划进一步优化开源LLMs的计算效率,以实现在真实世界中的高效导航应用。
本文仅做学术分享,如有侵权,请联系删文。

3D视觉硬件,官网:www.3dcver.com

资讯配图

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

3D视觉全栈学习课程:www.3dcver.com

资讯配图

3D视觉交流群成立啦,微信:cv3d001

资讯配图

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC 导航 开源
more
谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草
RSS 2025 软硬件全开源,智源清华带来混动灵巧脸Morpheus
炸了!ML开源
小扎天价薪酬难动FAIR朱泽园!清华学霸放话:死守基础研究,捍卫大模型开源
ICRA-2025 | 低成本、高隐私具身导航!Open-Nav:探索开源LLMs零样本视觉语言导航能力
港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体
谷歌发布超小型高效开源 AI 模型 Gemma 3 2.7亿参数,可在智能手机上运行
开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
月之暗面又开源了!杨植麟合著提出新Agent框架,旗舰模型得分超GPT-4o
【AI】腾讯混元开源游戏AI生成新工具!RTX4090就能制作3A级动态内容
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号