图像目标导航的核心究竟是什么?

具身智能之心 2025-07-04 20:07

点击下方卡片,关注“具身智能之心”公众号


作者丨GianlucaMonaci

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

研究背景与核心问题

图像目标导航(Image goal navigation)需要两种关键能力:一是核心导航技能,包括检测自由空间、障碍物及基于内部表征做决策;二是通过比较视觉观察与目标图像计算方向信息。当前主流方法要么依赖专门的图像匹配,要么预训练计算机视觉模块进行相对位姿估计。

研究聚焦于一个关键问题:该任务能否如近期研究所说,通过强化学习(RL)对完整智能体进行端到端训练来高效解决?若答案为肯定,其影响将超出具身AI领域,有望仅通过导航奖励来训练相对位姿估计模型。

核心研究内容与方法

关键架构选择

研究探讨了多种架构设计对任务性能的影响,核心在于如何支持图像间的隐式对应计算,这对提取方向信息至关重要。主要架构包括(figure 2):

  • Late Fusion:分别编码观察图像和目标图像,在嵌入向量层面进行“晚期”比较,难以实现局部图像的对应计算。
  • ChannelCat:将观察图像和目标图像在通道维度堆叠,通过单个编码器处理,若CNN感受野足够大,理论上可实现对应计算。
  • SpaceToDepth + ChannelCat:先将图像块维度重塑到通道维度,再结合通道堆叠,使卷积层可直接计算对应关系。
  • Cross-attention:通过双目Transformer的交叉注意力层,自然连接两幅图像的局部块(如补丁),直接计算对应关系。

实验设计

  • 环境与数据:使用Habitat模拟器和Gibson数据集,智能体需从起始位置导航至目标图像所示位置,动作空间包括前进、左右转向和停止,成功标准为距离目标1米内并调用停止动作。
  • 训练与评估:采用PPO算法训练,奖励函数为(其中 为到目标的测地距离增量);评估指标包括成功率(SR)和SPL(成功路径长度与最优路径长度的比值)。
  • 关键变量:重点分析模拟器中“Sliding”设置(智能体是否可沿墙滑动)的影响,以及不同架构在该设置下的表现差异。

主要发现

架构选择的影响

  • 早期patch级融合(如ChannelCat、Cross-attention)比晚期融合(Late Fusion)更关键,能更好支持隐式对应计算,直接影响结果。表1显示,在Sliding=True时,ChannelCat(ResNet9)的SR达83.6%,远高于Late Fusion的13.8%。
  • 低容量架构(如FGPrompt的ResNet9)在ChannelCat下的成功,与模拟器允许沿墙滑动的设置密切相关。当Sliding=False(更接近真实环境)时,其SR从83.6%降至31.7%,而依赖交叉注意力和预训练的DEBiT受影响较小(从90.5%降至81.7%)(table 1、table 2)。

能力迁移性

尽管Sliding=True的设置不利于真实世界迁移,但部分学到的能力可转移到更真实的环境中,且迁移需包含感知模块的权重。表3显示,将Sliding=True训练的感知模块权重迁移到Sliding=False并微调后,SR从31.7%提升至38.5%,而仅迁移动作模块则无效果。

导航与相对位姿估计的关联

通过在RL训练的表征上训练探测头(probing head),发现导航性能与(涌现的)相对位姿估计性能存在相关性。图3显示,导航成功率(SR)与相对位姿估计精度(误差<2m, 20°)呈正相关,其中DEBiT在两者上均表现最优,而Late Fusion则均较差。

结论

  • 架构设计中,支持早期局部融合(如交叉注意力、ChannelCat)的结构更利于隐式对应计算,对任务成功至关重要。
  • 模拟器的Sliding设置显著影响性能,但通过迁移感知模块权重,部分能力可迁移至真实环境。
  • 导航性能与相对位姿估计能力相关,验证了图像目标导航中方向信息提取的核心作用。
  • 目前,简单低容量架构仅通过RL训练难以成功解决图像目标导航,预训练对目标导向导航仍不可或缺。

参考

[1]What does really matter in image goal navigation?

写在最后

更多视觉语言导航与具身导航相关内容,欢迎学习具身智能之心的《目标导航算法与实战教程》、《视觉语言导航!VLN算法与实战课程》!新课优惠中,欢迎扫码试听学习~~~

微信扫码学习

课程大纲如下:

更多欢迎咨询小助理微信

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
导航
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号