点击下方卡片,关注“具身智能之心”公众号
作者丨GianlucaMonaci
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。
研究背景与核心问题
图像目标导航(Image goal navigation)需要两种关键能力:一是核心导航技能,包括检测自由空间、障碍物及基于内部表征做决策;二是通过比较视觉观察与目标图像计算方向信息。当前主流方法要么依赖专门的图像匹配,要么预训练计算机视觉模块进行相对位姿估计。
研究聚焦于一个关键问题:该任务能否如近期研究所说,通过强化学习(RL)对完整智能体进行端到端训练来高效解决?若答案为肯定,其影响将超出具身AI领域,有望仅通过导航奖励来训练相对位姿估计模型。
核心研究内容与方法
关键架构选择
研究探讨了多种架构设计对任务性能的影响,核心在于如何支持图像间的隐式对应计算,这对提取方向信息至关重要。主要架构包括(figure 2):

Late Fusion:分别编码观察图像和目标图像,在嵌入向量层面进行“晚期”比较,难以实现局部图像的对应计算。 ChannelCat:将观察图像和目标图像在通道维度堆叠,通过单个编码器处理,若CNN感受野足够大,理论上可实现对应计算。 SpaceToDepth + ChannelCat:先将图像块维度重塑到通道维度,再结合通道堆叠,使卷积层可直接计算对应关系。 Cross-attention:通过双目Transformer的交叉注意力层,自然连接两幅图像的局部块(如补丁),直接计算对应关系。
实验设计
环境与数据:使用Habitat模拟器和Gibson数据集,智能体需从起始位置导航至目标图像所示位置,动作空间包括前进、左右转向和停止,成功标准为距离目标1米内并调用停止动作。 训练与评估:采用PPO算法训练,奖励函数为(其中,, 为到目标的测地距离增量);评估指标包括成功率(SR)和SPL(成功路径长度与最优路径长度的比值)。 关键变量:重点分析模拟器中“Sliding”设置(智能体是否可沿墙滑动)的影响,以及不同架构在该设置下的表现差异。
主要发现
架构选择的影响
早期patch级融合(如ChannelCat、Cross-attention)比晚期融合(Late Fusion)更关键,能更好支持隐式对应计算,直接影响结果。表1显示,在Sliding=True时,ChannelCat(ResNet9)的SR达83.6%,远高于Late Fusion的13.8%。 低容量架构(如FGPrompt的ResNet9)在ChannelCat下的成功,与模拟器允许沿墙滑动的设置密切相关。当Sliding=False(更接近真实环境)时,其SR从83.6%降至31.7%,而依赖交叉注意力和预训练的DEBiT受影响较小(从90.5%降至81.7%)(table 1、table 2)。


能力迁移性
尽管Sliding=True的设置不利于真实世界迁移,但部分学到的能力可转移到更真实的环境中,且迁移需包含感知模块的权重。表3显示,将Sliding=True训练的感知模块权重迁移到Sliding=False并微调后,SR从31.7%提升至38.5%,而仅迁移动作模块则无效果。

导航与相对位姿估计的关联
通过在RL训练的表征上训练探测头(probing head),发现导航性能与(涌现的)相对位姿估计性能存在相关性。图3显示,导航成功率(SR)与相对位姿估计精度(误差<2m, 20°)呈正相关,其中DEBiT在两者上均表现最优,而Late Fusion则均较差。

结论
架构设计中,支持早期局部融合(如交叉注意力、ChannelCat)的结构更利于隐式对应计算,对任务成功至关重要。 模拟器的Sliding设置显著影响性能,但通过迁移感知模块权重,部分能力可迁移至真实环境。 导航性能与相对位姿估计能力相关,验证了图像目标导航中方向信息提取的核心作用。 目前,简单低容量架构仅通过RL训练难以成功解决图像目标导航,预训练对目标导向导航仍不可或缺。
参考
[1]What does really matter in image goal navigation?
写在最后
更多视觉语言导航与具身导航相关内容,欢迎学习具身智能之心的《目标导航算法与实战教程》、《视觉语言导航!VLN算法与实战课程》!新课优惠中,欢迎扫码试听学习~~~
微信扫码学习
课程大纲如下:

更多欢迎咨询小助理微信
