远超SOTA稠密SLAM！清华开源SLAM-Former：集成SLAM到一个Transformer中

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) ！星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：SLAM-Former: Putting SLAM into One Transformer

作者：Yijun Yuan, Zhuoguang Chen, Kenan Li, Weibang Wang, Hang Zhao

机构：Tsinghua University

原文链接：https://arxiv.org/abs/2509.16909

代码链接：https://tsinghua-mars-lab.github.io/SLAM-Former

1. 导读

我们提出了SLAM-Former，这是一种创新的神经网络方法，它将完整的SLAM（同时定位与地图构建）功能集成到了一个单一的Transformer模型中。与传统SLAM系统类似，SLAM-Former也包含前端和后端两个部分，两者协同工作。前端实时处理连续的单目图像以实现增量式的地图构建和目标跟踪，而后端则负责全局优化处理，以确保最终的地图结果在几何上保持一致。这种前后端交替工作的机制使得两者能够相互促进，从而提升整个系统的性能。全面的实验结果表明，SLAM-Former在性能上优于现有的先进密集SLAM方法，具有很强的竞争力。

2. 效果展示

SLAM-Former是一种用于同步定位与地图构建（Simultaneous Localization and Mapping，SLAM）的统一Transformer模型。传统的SLAM采用多模型流水线来处理前端和后端任务。与之相反，SLAM-Former将完整的SLAM功能集成在一个Transformer中，实现了位姿一致且地图稠密的效果。

3. 引言

在机器人感知领域，同步定位与地图构建（SLAM）具有重大意义。它使机器人能够在构建未知环境地图的同时，跟踪自身的位置。这种能力对于机器人在各种环境中自主导航和执行任务至关重要。早期的SLAM算法主要关注使用稀疏点进行定位和地图构建，例如ORB-SLAM和LSD-SLAM。这些方法高效且鲁棒，但可能无法提供关于周围环境的详细信息。

相比之下，稠密地图构建技术旨在创建更详细且连续的环境表示，主要依赖于激光雷达（Light Detection and Ranging，LiDAR）和RGB-D。

随着光流和多视图深度估计技术的快速发展，近期的研究仅使用图像作为输入，就实现了高质量的稠密单目SLAM。这些方法利用神经网络和计算机视觉算法的能力，从单个相机估计深度和运动，从而无需额外传感器即可创建稠密地图。尤其值得注意的是利用几何基础模型的趋势，如DUSt3R和VGGT。这些模型揭示了数据驱动的3D结构预测的巨大潜力。它们的流式变体StreamVGGT和Stream3R通过谨慎利用注意力键值缓存（Attention Key-Value Cache，KV cache），使模型能够处理增量视觉输入。推荐课程：Transformer如何在自动驾驶领域一统江湖！

我们观察到，使用几何基础模型作为重建模块的SLAM方法，如MASt3R-SLAM和VGGT-SLAM，存在全局不一致性问题，因为它们依赖于局部子地图的对齐。另一方面，像StreamVGGT和Stream3R这样的流式方法在不重新映射过去数据的情况下处理增量输入，这可能导致过去数据和新输入数据之间出现显著不匹配。

4. 主要贡献

在本研究中，我们引入了一种在单一统一Transformer架构内实现的视觉SLAM框架，命名为SLAM-Former。SLAM-Former由同一Transformer中的前端和后端组成，二者协同工作。前端对连续的RGB图像进行实时操作，用于关键帧选择以及增量地图和位姿更新。利用前端的增量输出，我们的后端以较低的频率定期对地图和位姿进行全局优化。

前端和后端在这个交替过程中相互促进。每次后端运行后，Transformer的KV缓存会更新到前端以进行进一步的增量操作。作为回报，前端提供初始结果和顺序信息，协助后端进行优化。为了使单个Transformer具备所有SLAM能力，我们为SLAM-Former提出了三种训练模式。

与需要额外回环检测模块来闭合位姿图的传统SLAM流水线相比，SLAM-Former的后端通过完全注意力机制实现了这一功能，相当于在稠密因子图上处理回环检测。

与校准和未校准的现有先进方法相比，SLAM-Former在广泛使用的稠密单目SLAM基准测试上实现了显著更好的重建效果和先进的跟踪性能。

5. 方法

SLAM-Former的工作流程。前端检测关键帧并执行增量位姿和地图更新，而后端执行全局位姿和地图更新。共享的地图标记内存和KV缓存更新机制确保前端和后端相互促进，这一过程用蓝色箭头标记。

6. 实验结果

TUM RGB-D数据集跟踪。在TUM测试中，对广泛使用的场景子集进行评估。结果汇总于表1。如表所示，在未校准设置下，我们的模型始终优于大多数基线方法。在涉及显著相机旋转和潜在回环闭合的更复杂序列（如房间和楼层）中，我们的模型表现出的卓越性能表明，我们后端的全局优化对于减轻累积漂移特别有效。更重要的是，与校准基线方法相比，我们的模型显著降低了误差，达到了极具竞争力的水平。

7-scenes数据集跟踪。按照与TUM RGB-D数据集跟踪类似的协议，我们对7场景数据集进行评估，结果如表2所示。无论在未校准还是校准设置下，我们的方法均优于大多数基线方法。在更复杂的场景（如办公室、南瓜和厨房）中，与其余方法相比，我们的模型实现了显著更高的性能差距。平均而言，我们的方法优于所有基线方法。

7. 总结 & 局限性

在本研究中，我们引入了SLAM-Former，将完整的SLAM能力集成到一个Transformer中。通过交替的增量前端处理和全局后端处理，SLAM-Former使前端和后端能够协同工作并相互增强，从而实现整体性能提升。结果表明，在跟踪和重建方面，SLAM-Former显著优于基于传统几何基础的SLAM方法。此外，与使用真实世界数据测试的传统方法相比，SLAM-Former实现了极具竞争力的跟踪性能和卓越得多的重建效果。

局限性 SLAM-Former仍存在一些局限性。首先，我们在后端使用完全注意力机制来替代传统SLAM中的回环检测与优化。然而，使用完全注意力机制会因O(n 2)的时间复杂度而产生问题。我们相信，在未来的工作中，这可以通过SLAM方法（使用稀疏图）或Transformer技术（如稀疏注意力和标记合并）来解决。其次，SLAM-Former不支持局部前端模式；在推理过程中，所有先前的KV缓存都应输入到模型中。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。