JanusVLN:阿里高德和西交解耦语义与空间,以双重隐式记忆引领视觉语言导航新篇章

机智流 2025-10-09 23:26


本文来自社区投稿

JanusVLN:阿里高德和西交解耦语义与空间,以双重隐式记忆引领视觉语言导航新篇章图1

引言

视觉-语言导航(Vision-and-Language Navigation, VLN)作为具身智能的关键研究领域,旨在使智能体能够根据自然语言指令在复杂的真实世界环境中自主导航。随着多模态大语言模型(MLLM)的发展,VLN的能力得到了显著增强。然而,当前基于MLLM的方法普遍依赖于构建显式记忆,如文本拓扑地图或缓存历史观测图像。此类方法存在三大核心瓶颈:首先,显式记忆会随着导航时间的增加而线性膨胀,导致记忆冗余与推理效率低下;其次,基于文本的地图抽象会造成关键空间几何信息的损失;更为根本的是,这些模型普遍采用为2D图像理解设计的视觉编码器,忽略了RGB图像中内含的丰富3D世界信息,从根本上限制了其空间推理能力。

为突破上述局限,我们从人类大脑在导航任务中左右半球协同处理语义与空间信息的机制中获得启发,提出了一种全新的视觉语言导航框架——JanusVLN。该框架的核心思想是从“单一显式语义记忆”范式转向“双重隐式神经记忆”范式,首次将视觉语义感知与空间几何理解进行解耦,并将其分别建模为两个独立的、固定大小的紧凑神经表征。

  • 论文标题:JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation
  • 论文链接https://arxiv.org/abs/2509.22548[1]
  • 项目主页https://miv-xjtu.github.io/JanusVLN.github.io/[2]
  • 代码地址https://github.com/MIV-XJTU/JanusVLN[3]

JanusVLN框架详解

JanusVLN:阿里高德和西交解耦语义与空间,以双重隐式记忆引领视觉语言导航新篇章图2

JanusVLN 的创新之处在于其双重隐式记忆架构,它能够高效地整合并利用历史信息,同时保持对环境的深度空间理解。

1. 解耦的感知架构:语义与空间的协同

JanusVLN设计了一个双编码器系统,以模拟人类的认知分工:

  • 2D视觉语义编码器:采用先进的 MLLM(Qwen2.5-VL)视觉编码器,负责从RGB图像中提取高级语义特征,精准回答“对象是什么”的问题。
  • 3D空间几何编码器:引入预训练的3D视觉几何基础模型(VGGT),它能够仅从RGB视频流中推理出场景的几何结构与空间关系,深刻回答“对象在哪里,相对位置如何”的问题。这一设计使模型无需依赖深度相机等昂贵硬件即可获得强大的3D空间先验知识。

2. 双重隐式神经记忆:基于KV缓存的高效表征

我们摒弃了存储原始高维观测数据的传统做法,创新性地将神经网络注意力模块的键值对(Key-Value, KV)缓存作为记忆的载体。

  • 这种隐式记忆是网络深度处理后的高级抽象表征,而非原始输入,因而极为紧凑高效。
  • JanusVLN分别为语义编码器和空间编码器维护独立的KV缓存,构成了互为补充的双重隐式记忆,分别捕获历史轨迹中的语义线索和空间结构。
JanusVLN:阿里高德和西交解耦语义与空间,以双重隐式记忆引领视觉语言导航新篇章图3

3. 混合增量更新策略:兼顾全局与局部信息

为了在长时序任务中维持固定大小的记忆并保证效率,我们设计了一种高效的混合缓存更新机制:

  • 滑动窗口 (Sliding Window):缓存最近n帧的KV对,确保模型对即时环境变化具有敏锐的感知能力。
  • 初始窗口 (Initial Window):永久保留任务初始阶段的几帧KV对。研究表明,这些初始帧如同“注意力接收器”(Attention Sinks),为整个导航任务提供了关键的全局上下文锚点。

通过此机制,模型在每一步决策中仅需处理当前帧,并通过注意力机制与固定大小的隐式记忆进行交互,彻底避免对历史帧的重复计算,在解决记忆膨胀问题的同时,极大地提升了推理效率。

JanusVLN:阿里高德和西交解耦语义与空间,以双重隐式记忆引领视觉语言导航新篇章图4

全面的实验验证

1. 定量分析

JanusVLN:阿里高德和西交解耦语义与空间,以双重隐式记忆引领视觉语言导航新篇章图5

我们在权威的 VLN-CE 基准上进行了 umfassende (comprehensive) 的实验评估。

  • 超越SOTA性能:在R2R-CE和RxR-CE数据集上,JanusVLN的性能全面超越了二十多种现有方法。与依赖全景图、深度图等多模态输入的方法相比,仅使用单目RGB的JanusVLN在成功率(SR)上取得了10.5-35.5个百分点的显著提升。
  • 范式优越性:与同样仅使用RGB输入但采用显式记忆(如历史帧、文本地图)的先进方法(如NaVILA, StreamVLN)相比,JanusVLN亦展现出明显优势(SR提升3.6-10.8个点),有力证明了双重隐式记忆范式的优越性。
  • 强大泛化能力:在更具挑战性的多语言RxR-CE数据集上,JanusVLN同样取得了SOTA性能,SR指标相较以往方法提升了3.3-30.7个点,显示了其强大的模型泛化能力。
JanusVLN:阿里高德和西交解耦语义与空间,以双重隐式记忆引领视觉语言导航新篇章图6

2. 定性分析

JanusVLN:阿里高德和西交解耦语义与空间,以双重隐式记忆引领视觉语言导航新篇章图7

定性实验进一步展示了JanusVLN卓越的空间推理能力。在上图所示的需要深度感知(辨认最远的凳子)、三维相对定位(停在盆栽旁而非前方)和空间关联(柜子旁的凳子)等复杂空间理解的任务中,JanusVLN能够借助其空间几何记忆做出精准决策,成功完成挑战。

结论与意义

本文提出的JanusVLN框架,通过引入双重隐式神经记忆,成功将语义理解与空间认知解耦,为视觉语言导航领域带来了范式上的革新。该方法不仅从根本上解决了传统显式记忆带来的计算冗余和记忆膨脹问题,更重要的是,它仅通过RGB输入便赋予了模型强大的3D空间感知能力,摆脱了对额外3D传感器的依赖。

JanusVLN的卓越性能和高效设计,验证了该研究方向的巨大潜力,推动VLN研究从“2D语义主导”迈向“3D空间与语义协同”的新阶段,为构建下一代具备高级空间认知能力的具身智能体铺平了道路。

参考资料
[1] 

论文链接: https://arxiv.org/abs/2509.22548

[2] 

项目主页: https://miv-xjtu.github.io/JanusVLN.github.io/

[3] 

代码地址https://github.com/MIV-XJTU/JanusVLN



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
导航
more
IROS-2025 | OIKG:基于观察-图交互与关键细节引导的视觉语言导航
基于 ESP32 的离线便携式全球导航卫星系统设备
生物医药中试“服务菜单”发布,40家平台精准“导航”|科创天府·智汇蓉城
黄金周来了,为什么10亿人出门导航不再仅是“认路”?
突破导航记忆瓶颈:JanusVLN以双重隐式记忆赋能具身智能空间认知新纪元
JanusVLN:双重隐式记忆解耦语义与空间,开创视觉语言导航记忆新范式
无人机实时导航避坑指南:激光雷达定位与飞控融合的那些关键细节
无人机飞行不迷路:解析惯性导航系统与磁力计的协同作战!推荐几款传感器
NoMaD:基于目标掩码的统一扩散导航与探索策略
无人机帝国创新史:视觉导航团队的破茧、破界与破维
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号