图像目标导航的核心究竟是什么？

具身智能之心 2025-07-04 20:07

点击下方卡片，关注“具身智能之心”公众号

作者丨GianlucaMonaci
编辑丨具身智能之心
本文只做学术分享，如有侵权，联系删文

>>点击进入→具身智能之心技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

研究背景与核心问题

图像目标导航（Image goal navigation）需要两种关键能力：一是核心导航技能，包括检测自由空间、障碍物及基于内部表征做决策；二是通过比较视觉观察与目标图像计算方向信息。当前主流方法要么依赖专门的图像匹配，要么预训练计算机视觉模块进行相对位姿估计。

研究聚焦于一个关键问题：该任务能否如近期研究所说，通过强化学习（RL）对完整智能体进行端到端训练来高效解决？若答案为肯定，其影响将超出具身AI领域，有望仅通过导航奖励来训练相对位姿估计模型。

核心研究内容与方法

关键架构选择

研究探讨了多种架构设计对任务性能的影响，核心在于如何支持图像间的隐式对应计算，这对提取方向信息至关重要。主要架构包括（figure 2）：

Late Fusion：分别编码观察图像和目标图像，在嵌入向量层面进行“晚期”比较，难以实现局部图像的对应计算。
ChannelCat：将观察图像和目标图像在通道维度堆叠，通过单个编码器处理，若CNN感受野足够大，理论上可实现对应计算。
SpaceToDepth + ChannelCat：先将图像块维度重塑到通道维度，再结合通道堆叠，使卷积层可直接计算对应关系。
Cross-attention：通过双目Transformer的交叉注意力层，自然连接两幅图像的局部块（如补丁），直接计算对应关系。

实验设计

环境与数据：使用Habitat模拟器和Gibson数据集，智能体需从起始位置导航至目标图像所示位置，动作空间包括前进、左右转向和停止，成功标准为距离目标1米内并调用停止动作。
训练与评估：采用PPO算法训练，奖励函数为（其中，，为到目标的测地距离增量）；评估指标包括成功率（SR）和SPL（成功路径长度与最优路径长度的比值）。
关键变量：重点分析模拟器中“Sliding”设置（智能体是否可沿墙滑动）的影响，以及不同架构在该设置下的表现差异。

主要发现

架构选择的影响

早期patch级融合（如ChannelCat、Cross-attention）比晚期融合（Late Fusion）更关键，能更好支持隐式对应计算，直接影响结果。表1显示，在Sliding=True时，ChannelCat（ResNet9）的SR达83.6%，远高于Late Fusion的13.8%。
低容量架构（如FGPrompt的ResNet9）在ChannelCat下的成功，与模拟器允许沿墙滑动的设置密切相关。当Sliding=False（更接近真实环境）时，其SR从83.6%降至31.7%，而依赖交叉注意力和预训练的DEBiT受影响较小（从90.5%降至81.7%）（table 1、table 2）。

能力迁移性

尽管Sliding=True的设置不利于真实世界迁移，但部分学到的能力可转移到更真实的环境中，且迁移需包含感知模块的权重。表3显示，将Sliding=True训练的感知模块权重迁移到Sliding=False并微调后，SR从31.7%提升至38.5%，而仅迁移动作模块则无效果。

导航与相对位姿估计的关联

通过在RL训练的表征上训练探测头（probing head），发现导航性能与（涌现的）相对位姿估计性能存在相关性。图3显示，导航成功率（SR）与相对位姿估计精度（误差<2m, 20°）呈正相关，其中DEBiT在两者上均表现最优，而Late Fusion则均较差。

结论

架构设计中，支持早期局部融合（如交叉注意力、ChannelCat）的结构更利于隐式对应计算，对任务成功至关重要。
模拟器的Sliding设置显著影响性能，但通过迁移感知模块权重，部分能力可迁移至真实环境。
导航性能与相对位姿估计能力相关，验证了图像目标导航中方向信息提取的核心作用。
目前，简单低容量架构仅通过RL训练难以成功解决图像目标导航，预训练对目标导向导航仍不可或缺。

参考

[1]What does really matter in image goal navigation?

写在最后

更多视觉语言导航与具身导航相关内容，欢迎学习具身智能之心的《目标导航算法与实战教程》、《视觉语言导航！VLN算法与实战课程》！新课优惠中，欢迎扫码试听学习~~~

微信扫码学习

课程大纲如下：

更多欢迎咨询小助理微信

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

导航

谷歌研究院联合加州大学等发布AVLMaps：多模态空间语言地图赋能机器人零样本导航与跨模态推理

具身进化 1天前

潮讯：鸿蒙版《原神》开始测试；红米双旗舰卖爆了；马斯克将发布Grok4模型；华为Pura80支持长隧道车道级导航定位

好机友 2周前

机器人定位与导航学习路线图

Xbot具身知识库 3天前

CVPR2025｜想让机器人像人类一样适应动态交通？纽约大学AI4CE组提出CityWalker，用海量视频优化实体城市导航

机智流 1天前

90%导航成功率+泛化率，ETH的新强化学习方法使微型机器人在血管里不再迷路

ScienceAI 2周前

有几个Top具身公司的大模型、强化学习、VLA和具身导航岗位！

具身智能之心 1周前

机器人导航的2个模块：视觉语言导航和目标导航有什么区别？

具身智能之心 2周前

机器人视觉语言导航进入R1时代！港大联合上海AI Lab提出全新具身智能框架

量子位 3周前

制造业转型的实战“导航图”来了！——《标杆智能工厂案例集》正式出版

MES百科 3周前

机器人视觉语言导航进入R1时代！港大联合上海AI Lab提出全新具身智能框架

AI生成未来 3周前

Copyright © 2025 成都科技区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号