NeurIPS 2025 Oral!新国大提出机器人视觉语言导航方法Dynam3D,增强3D空间理解能力

智猩猩 2025-09-28 19:11
智猩猩Robot整理
编辑:严浠


视觉与语言导航(VLN)要求具身智能体整合三项核心能力:1) 理解自然语言指令;2) 探索环境并目的地;3) 规划并执行导航动作。如图1(a)所示,现有工作主要集中于使用基于视频的VLM来开发单目VLN系统。这些在大规模互联网数据上预训练的模型展现出了强大的语言理解和多模态推理能力,使其能够有效遵循指令并持续预测导航动作。


NeurIPS 2025 Oral!新国大提出机器人视觉语言导航方法Dynam3D,增强3D空间理解能力图1


尽管已经取得了一些进展,但仍存在局限:


1) 基于视频的VLM难以捕捉大规模3D环境中的空间几何和语义实验表明,这严重限制了模型的探索和有效纠错的能力;


2) 这些模型的大规模探索与长期记忆缺失,无法有效利用预探索知识;


3) 模型对动态环境适应性差,对物体移动等场景变化鲁棒性不足。


为解决上述局限,新加坡国立大学提出用于视觉语言导航的动态分层3D表征模型Dynam3D,如图1(b)所示。


为编码3D环境,使用CLIP提取区块级2D特征,并通过深度图和相机位姿将其投影到3D空间。它利用语言对齐、可泛化、分层的3D表征作为视觉输入,来训练用于导航动作预测的3D-VLM


对于给定的RGB-D图像,Dynam3D将2D CLIP特征投影到3D空间,并采用动态分层更新策略,构建了patch(区块)-instance(实例)-zone(区域)的多层级3D表征,以实现对3D几何和语义的理解。Dynam3D在R2R-CE等基准测试中取得SOTA性能,为导航提供大规模探索和长期记忆能力,现已成功部署在真实机器人。


NeurIPS 2025 Oral!新国大提出机器人视觉语言导航方法Dynam3D,增强3D空间理解能力图2


  • 论文标题:《Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation》

  • 论文链接:https://arxiv.org/abs/2505.11383

  • 项目主页:

    https://github.com/MrZihan/Dynam3D

  • 收录情况:NeurIPS 2025 Oral


1

方法


1.1 整体框


用于视觉语言导航的Dynam3D整体框架如图2所示。该框架以带位姿的单目RGB和深度图像作为输入,输出转向、前进、停止等导航动作。Dynam3D维护一组特征点以编码可泛化特征场,该特征场用于渲染具身智能体周边的全景3D区块标记。此外,Dynam3D逐层编码和更新3D实例表征和大规模立方体区域表征,用于多层次场景理解和目标定位。这些多层次的3D tokens、导航指令和历史动作随后被输入到一个3D-VLM中,用于预测下一个动作。


NeurIPS 2025 Oral!新国大提出机器人视觉语言导航方法Dynam3D,增强3D空间理解能力图3


1.2 动态分层3D表征模型


研究人员设计并预训练了一个多层次3D表征模型,以获取语言对齐的、同时包含细粒度细节和全局布局的3D表征。


编码特征点。为记忆3D环境的几何和语义信息,遵循了HNR和g3D-LF的方法,使用CLIP-ViT-L/14@336px 作为RGB图像的编码器来提取2D区块特征NeurIPS 2025 Oral!新国大提出机器人视觉语言导航方法Dynam3D,增强3D空间理解能力图4


更新特征点。如图3所示,采用视锥体剔除策略,通过丢弃过时的特征并纳入新的特征来动态更新特征点集合M,这与先前的方法不同。


NeurIPS 2025 Oral!新国大提出机器人视觉语言导航方法Dynam3D,增强3D空间理解能力图5


动态编码3D实例表 由于3D区块特征数量庞大,不适宜直接将其作为3D-VLM的视觉输入。与体素级池化方法(例如LLaVA-3D)不同,Dynam3D在3D实例级别编码特征,因为导航指令中的目标定位大多是根据物体实例来描述的。如图2所示,FastSAM快速分割出2D实例掩码。对于每个2D实例,其实例编码器使用一个可学习的token作为查询,将对应的带有位置嵌入的区块特征聚合为一个紧凑的实例级表征:


NeurIPS 2025 Oral!新国大提出机器人视觉语言导航方法Dynam3D,增强3D空间理解能力图6

1.3 用于导航的3D VLM


如图2所示,Dynam3D构建了从细粒度物体实例到大规模环境区域的分层3D表征。利用这些多层次的3D表征作为感知输入,提出了一个专为VLN任务设计的3D视觉语言模型。


通过可泛化特征场编码全景3D区块tokens为有效捕捉具身智能体周围全景中的细粒度几何和语义信息,在g3D-LF方法基础上,采用一个可泛化特征场模型来预测以具身智能体为中心的3D区块标记。


多模态推理与动作预测为平衡多模态推理能力与计算效率,研究人员将拥有3.8B参数的LLaVA-Phi-3-mini集成到所提出的3D-VLM中。由于3Dtokens(区块-实例-区域)与 CLIP-ViT-L/14@336px 的语义空间对齐,该2D-VLM强大的多模态理解和推理能力可以有效地迁移到3D领域。


2

实验


2.1 与SOTA方法的比较


研究人员在三个不同的连续环境VLN基准测试中评估了Dynam3D的导航性能。在R2R-CE数据集中,Dynam3D的导航成功率达到了52.9%,比之前的最优方法g3D-LF和Uni-NaVid高了近5%。虽使用了LLM,但相较于基于视频的Uni-NaVid,Dynam3D参数量仅有3.8B,比Uni-NaVid 7B参数量少了近一半。


NeurIPS 2025 Oral!新国大提出机器人视觉语言导航方法Dynam3D,增强3D空间理解能力图7


为了在更具挑战性和真实性的基准测试REVERIE-CE和NavRAG-CE上公平比较,在训练数据集上重新训练了NaVid和g3D-LF,并在这两个基准上进行了评估。实验结果如表2所示。Dynam3D仍然表现出显著改进。在REVERIE-CE上的成功率达到40.1%,超过NaVid 13%以上;在NavRAG-CE上成功率24.7%,超过NaVid 5%以上


NeurIPS 2025 Oral!新国大提出机器人视觉语言导航方法Dynam3D,增强3D空间理解能力图8


2.2 预探索和长期记忆实验


预探索设置预探索允许具身智能体在评估前扫描和编码环境表示,Dynam3D在R2R-CE和 REVERIE-CE上的成功率分别提高了超过5%和 8%。


长期记忆设置:长期记忆使具身智能体能够在后续任务中利用之前存储的环境表征。Dynam3D在 R2R-CE和REVERIE-CE上的成功率分别提高了 2.7%和4.9%。


NeurIPS 2025 Oral!新国大提出机器人视觉语言导航方法Dynam3D,增强3D空间理解能力图9

2.3 动态环境中真机实验


如图4所示,在真实世界的静态和动态环境中评估了Dynam3D。


NeurIPS 2025 Oral!新国大提出机器人视觉语言导航方法Dynam3D,增强3D空间理解能力图10


静态环境中,Dynam3D的导航成功率达到了55%,比NaVid高出20%,比g3D-LF高出25%。


NeurIPS 2025 Oral!新国大提出机器人视觉语言导航方法Dynam3D,增强3D空间理解能力图11

动态环境中,即使目标被移动到另一个位置,Dynam3D 仍然能够成功导航至新目标位置,展现模型出对环境变化的强大适应性。


NeurIPS 2025 Oral!新国大提出机器人视觉语言导航方法Dynam3D,增强3D空间理解能力图12


3

总结


本论文提出一种用于单目视觉语言导航的动态分层3D表征方法Dynam3D。该模型通过将区块-实例-区域特征与语言语义对齐,能够进行实时场景更新,该方法增强了机器人对空间的理解、长期记忆能力以及在动态环境中的适应性。


Dynam3D在多个VLN基准测试中取得了SOTA性能,并在实际部署中展现出强大的泛化性。该成果凸显了结构化且动态更新的3D表征在具身导航中的重要价值。


END


智猩猩矩阵号各专所长,点击名片关注




声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IP 导航 机器人
more
机器人感知大升级!轻量化注入几何先验,成功率提升31%
不造机器人只做系统,Meta的野心是成为“机器人界的安卓”
浙大等团队研发,我国轮足机器人通过高原“大考”,戈壁湿地如履平地
人形机器人100家-躯干公司丨铁姆肯 Timken
【智造】机器人“天团”协同造挖机!它们如何“默契”作业?
【机器人】缓解压力的卡西欧毛绒机器人Moflin即将登陆美国市场
更为稳健,具备泛化!BumbleBee: 通用人形机器人全身控制范式
巨头争霸人形机器人:40+上市企业最新规划揭晓!
埃斯顿携全新机器人新品、行业解决方案、AI+数字化技术闪耀工博会!
【报名入口】2025具身智能移动机器人产业峰会!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号