点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息
标题:SLAM-Former: Putting SLAM into One Transformer
作者:Yijun Yuan, Zhuoguang Chen, Kenan Li, Weibang Wang, Hang Zhao
机构:Tsinghua University
原文链接:https://arxiv.org/abs/2509.16909
代码链接:https://tsinghua-mars-lab.github.io/SLAM-Former
1. 导读
我们提出了SLAM-Former,这是一种创新的神经网络方法,它将完整的SLAM(同时定位与地图构建)功能集成到了一个单一的Transformer模型中。与传统SLAM系统类似,SLAM-Former也包含前端和后端两个部分,两者协同工作。前端实时处理连续的单目图像以实现增量式的地图构建和目标跟踪,而后端则负责全局优化处理,以确保最终的地图结果在几何上保持一致。这种前后端交替工作的机制使得两者能够相互促进,从而提升整个系统的性能。全面的实验结果表明,SLAM-Former在性能上优于现有的先进密集SLAM方法,具有很强的竞争力。
2. 效果展示
SLAM-Former是一种用于同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)的统一Transformer模型。传统的SLAM采用多模型流水线来处理前端和后端任务。与之相反,SLAM-Former将完整的SLAM功能集成在一个Transformer中,实现了位姿一致且地图稠密的效果。


3. 引言
在机器人感知领域,同步定位与地图构建(SLAM)具有重大意义。它使机器人能够在构建未知环境地图的同时,跟踪自身的位置。这种能力对于机器人在各种环境中自主导航和执行任务至关重要。早期的SLAM算法主要关注使用稀疏点进行定位和地图构建,例如ORB-SLAM和LSD-SLAM。这些方法高效且鲁棒,但可能无法提供关于周围环境的详细信息。
相比之下,稠密地图构建技术旨在创建更详细且连续的环境表示,主要依赖于激光雷达(Light Detection and Ranging,LiDAR)和RGB-D。
随着光流和多视图深度估计技术的快速发展,近期的研究仅使用图像作为输入,就实现了高质量的稠密单目SLAM。这些方法利用神经网络和计算机视觉算法的能力,从单个相机估计深度和运动,从而无需额外传感器即可创建稠密地图。尤其值得注意的是利用几何基础模型的趋势,如DUSt3R和VGGT。这些模型揭示了数据驱动的3D结构预测的巨大潜力。它们的流式变体StreamVGGT和Stream3R通过谨慎利用注意力键值缓存(Attention Key-Value Cache,KV cache),使模型能够处理增量视觉输入。推荐课程:Transformer如何在自动驾驶领域一统江湖!
我们观察到,使用几何基础模型作为重建模块的SLAM方法,如MASt3R-SLAM和VGGT-SLAM,存在全局不一致性问题,因为它们依赖于局部子地图的对齐。另一方面,像StreamVGGT和Stream3R这样的流式方法在不重新映射过去数据的情况下处理增量输入,这可能导致过去数据和新输入数据之间出现显著不匹配。
4. 主要贡献
在本研究中,我们引入了一种在单一统一Transformer架构内实现的视觉SLAM框架,命名为SLAM-Former。SLAM-Former由同一Transformer中的前端和后端组成,二者协同工作。前端对连续的RGB图像进行实时操作,用于关键帧选择以及增量地图和位姿更新。利用前端的增量输出,我们的后端以较低的频率定期对地图和位姿进行全局优化。
前端和后端在这个交替过程中相互促进。每次后端运行后,Transformer的KV缓存会更新到前端以进行进一步的增量操作。作为回报,前端提供初始结果和顺序信息,协助后端进行优化。为了使单个Transformer具备所有SLAM能力,我们为SLAM-Former提出了三种训练模式。
与需要额外回环检测模块来闭合位姿图的传统SLAM流水线相比,SLAM-Former的后端通过完全注意力机制实现了这一功能,相当于在稠密因子图上处理回环检测。
与校准和未校准的现有先进方法相比,SLAM-Former在广泛使用的稠密单目SLAM基准测试上实现了显著更好的重建效果和先进的跟踪性能。
5. 方法
SLAM-Former的工作流程。前端检测关键帧并执行增量位姿和地图更新,而后端执行全局位姿和地图更新。共享的地图标记内存和KV缓存更新机制确保前端和后端相互促进,这一过程用蓝色箭头标记。


6. 实验结果
TUM RGB-D数据集跟踪。在TUM测试中,对广泛使用的场景子集进行评估。结果汇总于表1。如表所示,在未校准设置下,我们的模型始终优于大多数基线方法。在涉及显著相机旋转和潜在回环闭合的更复杂序列(如房间和楼层)中,我们的模型表现出的卓越性能表明,我们后端的全局优化对于减轻累积漂移特别有效。更重要的是,与校准基线方法相比,我们的模型显著降低了误差,达到了极具竞争力的水平。
7-scenes数据集跟踪。按照与TUM RGB-D数据集跟踪类似的协议,我们对7场景数据集进行评估,结果如表2所示。无论在未校准还是校准设置下,我们的方法均优于大多数基线方法。在更复杂的场景(如办公室、南瓜和厨房)中,与其余方法相比,我们的模型实现了显著更高的性能差距。平均而言,我们的方法优于所有基线方法。

7. 总结 & 局限性
在本研究中,我们引入了SLAM-Former,将完整的SLAM能力集成到一个Transformer中。通过交替的增量前端处理和全局后端处理,SLAM-Former使前端和后端能够协同工作并相互增强,从而实现整体性能提升。结果表明,在跟踪和重建方面,SLAM-Former显著优于基于传统几何基础的SLAM方法。此外,与使用真实世界数据测试的传统方法相比,SLAM-Former实现了极具竞争力的跟踪性能和卓越得多的重建效果。
局限性 SLAM-Former仍存在一些局限性。首先,我们在后端使用完全注意力机制来替代传统SLAM中的回环检测与优化。然而,使用完全注意力机制会因O(n 2)的时间复杂度而产生问题。我们相信,在未来的工作中,这可以通过SLAM方法(使用稀疏图)或Transformer技术(如稀疏注意力和标记合并)来解决。其次,SLAM-Former不支持局部前端模式;在推理过程中,所有先前的KV缓存都应输入到模型中。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
3D视觉硬件,官网:www.3dcver.com
3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!