视觉与语言导航(VLN)要求具身智能体整合三项核心能力:1) 理解自然语言指令;2) 探索环境并目的地;3) 规划并执行导航动作。如图1(a)所示,现有工作主要集中于使用基于视频的VLM来开发单目VLN系统。这些在大规模互联网数据上预训练的模型展现出了强大的语言理解和多模态推理能力,使其能够有效遵循指令并持续预测导航动作。

尽管已经取得了一些进展,但仍存在局限:
1) 基于视频的VLM难以捕捉大规模3D环境中的空间几何和语义。实验表明,这严重限制了模型的探索和有效纠错的能力;
2) 这些模型的大规模探索与长期记忆缺失,无法有效利用预探索知识;
3) 模型对动态环境适应性差,对物体移动等场景变化鲁棒性不足。
为解决上述局限,新加坡国立大学提出用于视觉语言导航的动态分层3D表征模型Dynam3D,如图1(b)所示。
为编码3D环境,使用CLIP提取区块级2D特征,并通过深度图和相机位姿将其投影到3D空间。它利用语言对齐、可泛化、分层的3D表征作为视觉输入,来训练用于导航动作预测的3D-VLM。
对于给定的RGB-D图像,Dynam3D将2D CLIP特征投影到3D空间,并采用动态分层更新策略,构建了patch(区块)-instance(实例)-zone(区域)的多层级3D表征,以实现对3D几何和语义的理解。Dynam3D在R2R-CE等基准测试中取得SOTA性能,为导航提供大规模探索和长期记忆能力,现已成功部署在真实机器人。

论文标题:《Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation》
论文链接:https://arxiv.org/abs/2505.11383
项目主页:
https://github.com/MrZihan/Dynam3D
收录情况:NeurIPS 2025 Oral
1
方法
1.1 整体框架
用于视觉语言导航的Dynam3D整体框架如图2所示。该框架以带位姿的单目RGB和深度图像作为输入,输出转向、前进、停止等导航动作。Dynam3D维护一组特征点以编码可泛化特征场,该特征场用于渲染具身智能体周边的全景3D区块标记。此外,Dynam3D逐层编码和更新3D实例表征和大规模立方体区域表征,用于多层次场景理解和目标定位。这些多层次的3D tokens、导航指令和历史动作随后被输入到一个3D-VLM中,用于预测下一个动作。

1.2 动态分层3D表征模型
研究人员设计并预训练了一个多层次3D表征模型,以获取语言对齐的、同时包含细粒度细节和全局布局的3D表征。
编码特征点。为记忆3D环境的几何和语义信息,遵循了HNR和g3D-LF的方法,使用CLIP-ViT-L/14@336px 作为RGB图像的编码器来提取2D区块特征。
更新特征点。如图3所示,采用视锥体剔除策略,通过丢弃过时的特征并纳入新的特征来动态更新特征点集合M,这与先前的方法不同。

动态编码3D实例表征。 由于3D区块特征数量庞大,不适宜直接将其作为3D-VLM的视觉输入。与体素级池化方法(例如LLaVA-3D)不同,Dynam3D在3D实例级别编码特征,因为导航指令中的目标定位大多是根据物体实例来描述的。如图2所示,FastSAM快速分割出2D实例掩码。对于每个2D实例,其实例编码器使用一个可学习的token作为查询,将对应的带有位置嵌入的区块特征聚合为一个紧凑的实例级表征:

1.3 用于导航的3D VLM
如图2所示,Dynam3D构建了从细粒度物体实例到大规模环境区域的分层3D表征。利用这些多层次的3D表征作为感知输入,提出了一个专为VLN任务设计的3D视觉语言模型。
通过可泛化特征场编码全景3D区块tokens。为有效捕捉具身智能体周围全景中的细粒度几何和语义信息,在g3D-LF方法基础上,采用一个可泛化特征场模型来预测以具身智能体为中心的3D区块标记。
多模态推理与动作预测。为平衡多模态推理能力与计算效率,研究人员将拥有3.8B参数的LLaVA-Phi-3-mini集成到所提出的3D-VLM中。由于3Dtokens(区块-实例-区域)与 CLIP-ViT-L/14@336px 的语义空间对齐,该2D-VLM强大的多模态理解和推理能力可以有效地迁移到3D领域。
2
实验
2.1 与SOTA方法的比较
研究人员在三个不同的连续环境VLN基准测试中评估了Dynam3D的导航性能。在R2R-CE数据集中,Dynam3D的导航成功率达到了52.9%,比之前的最优方法g3D-LF和Uni-NaVid高了近5%。虽使用了LLM,但相较于基于视频的Uni-NaVid,Dynam3D参数量仅有3.8B,比Uni-NaVid 7B参数量少了近一半。

为了在更具挑战性和真实性的基准测试REVERIE-CE和NavRAG-CE上公平比较,在训练数据集上重新训练了NaVid和g3D-LF,并在这两个基准上进行了评估。实验结果如表2所示。Dynam3D仍然表现出显著改进。在REVERIE-CE上的成功率达到40.1%,超过NaVid 13%以上;在NavRAG-CE上成功率24.7%,超过NaVid 5%以上。

2.2 预探索和长期记忆实验
预探索设置:预探索允许具身智能体在评估前扫描和编码环境表示,Dynam3D在R2R-CE和 REVERIE-CE上的成功率分别提高了超过5%和 8%。
长期记忆设置:长期记忆使具身智能体能够在后续任务中利用之前存储的环境表征。Dynam3D在 R2R-CE和REVERIE-CE上的成功率分别提高了 2.7%和4.9%。

2.3 动态环境中真机实验
如图4所示,在真实世界的静态和动态环境中评估了Dynam3D。

在静态环境中,Dynam3D的导航成功率达到了55%,比NaVid高出20%,比g3D-LF高出25%。

在动态环境中,即使目标被移动到另一个位置,Dynam3D 仍然能够成功导航至新目标位置,展现模型出对环境变化的强大适应性。

3
总结
本论文提出一种用于单目视觉语言导航的动态分层3D表征方法Dynam3D。该模型通过将区块-实例-区域特征与语言语义对齐,能够进行实时场景更新,该方法增强了机器人对空间的理解、长期记忆能力以及在动态环境中的适应性。
Dynam3D在多个VLN基准测试中取得了SOTA性能,并在实际部署中展现出强大的泛化性。该成果凸显了结构化且动态更新的3D表征在具身导航中的重要价值。
END
智猩猩矩阵号各专所长,点击名片关注