远超SOTA稠密SLAM!清华开源SLAM-Former:集成SLAM到一个Transformer中

3D视觉工坊 2025-09-24 07:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

0. 论文信息

标题:SLAM-Former: Putting SLAM into One Transformer

作者:Yijun Yuan, Zhuoguang Chen, Kenan Li, Weibang Wang, Hang Zhao

机构:Tsinghua University

原文链接:https://arxiv.org/abs/2509.16909

代码链接:https://tsinghua-mars-lab.github.io/SLAM-Former

1. 导读

我们提出了SLAM-Former,这是一种创新的神经网络方法,它将完整的SLAM(同时定位与地图构建)功能集成到了一个单一的Transformer模型中。与传统SLAM系统类似,SLAM-Former也包含前端和后端两个部分,两者协同工作。前端实时处理连续的单目图像以实现增量式的地图构建和目标跟踪,而后端则负责全局优化处理,以确保最终的地图结果在几何上保持一致。这种前后端交替工作的机制使得两者能够相互促进,从而提升整个系统的性能。全面的实验结果表明,SLAM-Former在性能上优于现有的先进密集SLAM方法,具有很强的竞争力。

2. 效果展示

SLAM-Former是一种用于同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)的统一Transformer模型。传统的SLAM采用多模型流水线来处理前端和后端任务。与之相反,SLAM-Former将完整的SLAM功能集成在一个Transformer中,实现了位姿一致且地图稠密的效果。

资讯配图
资讯配图

3. 引言

在机器人感知领域,同步定位与地图构建(SLAM)具有重大意义。它使机器人能够在构建未知环境地图的同时,跟踪自身的位置。这种能力对于机器人在各种环境中自主导航和执行任务至关重要。早期的SLAM算法主要关注使用稀疏点进行定位和地图构建,例如ORB-SLAM和LSD-SLAM。这些方法高效且鲁棒,但可能无法提供关于周围环境的详细信息。

相比之下,稠密地图构建技术旨在创建更详细且连续的环境表示,主要依赖于激光雷达(Light Detection and Ranging,LiDAR)和RGB-D。

随着光流和多视图深度估计技术的快速发展,近期的研究仅使用图像作为输入,就实现了高质量的稠密单目SLAM。这些方法利用神经网络和计算机视觉算法的能力,从单个相机估计深度和运动,从而无需额外传感器即可创建稠密地图。尤其值得注意的是利用几何基础模型的趋势,如DUSt3R和VGGT。这些模型揭示了数据驱动的3D结构预测的巨大潜力。它们的流式变体StreamVGGT和Stream3R通过谨慎利用注意力键值缓存(Attention Key-Value Cache,KV cache),使模型能够处理增量视觉输入。推荐课程:Transformer如何在自动驾驶领域一统江湖!

我们观察到,使用几何基础模型作为重建模块的SLAM方法,如MASt3R-SLAM和VGGT-SLAM,存在全局不一致性问题,因为它们依赖于局部子地图的对齐。另一方面,像StreamVGGT和Stream3R这样的流式方法在不重新映射过去数据的情况下处理增量输入,这可能导致过去数据和新输入数据之间出现显著不匹配。

4. 主要贡献

在本研究中,我们引入了一种在单一统一Transformer架构内实现的视觉SLAM框架,命名为SLAM-Former。SLAM-Former由同一Transformer中的前端和后端组成,二者协同工作。前端对连续的RGB图像进行实时操作,用于关键帧选择以及增量地图和位姿更新。利用前端的增量输出,我们的后端以较低的频率定期对地图和位姿进行全局优化。

前端和后端在这个交替过程中相互促进。每次后端运行后,Transformer的KV缓存会更新到前端以进行进一步的增量操作。作为回报,前端提供初始结果和顺序信息,协助后端进行优化。为了使单个Transformer具备所有SLAM能力,我们为SLAM-Former提出了三种训练模式。

与需要额外回环检测模块来闭合位姿图的传统SLAM流水线相比,SLAM-Former的后端通过完全注意力机制实现了这一功能,相当于在稠密因子图上处理回环检测。

与校准和未校准的现有先进方法相比,SLAM-Former在广泛使用的稠密单目SLAM基准测试上实现了显著更好的重建效果和先进的跟踪性能。

5. 方法

SLAM-Former的工作流程。前端检测关键帧并执行增量位姿和地图更新,而后端执行全局位姿和地图更新。共享的地图标记内存和KV缓存更新机制确保前端和后端相互促进,这一过程用蓝色箭头标记。

资讯配图
资讯配图

6. 实验结果

TUM RGB-D数据集跟踪。在TUM测试中,对广泛使用的场景子集进行评估。结果汇总于表1。如表所示,在未校准设置下,我们的模型始终优于大多数基线方法。在涉及显著相机旋转和潜在回环闭合的更复杂序列(如房间和楼层)中,我们的模型表现出的卓越性能表明,我们后端的全局优化对于减轻累积漂移特别有效。更重要的是,与校准基线方法相比,我们的模型显著降低了误差,达到了极具竞争力的水平。

7-scenes数据集跟踪。按照与TUM RGB-D数据集跟踪类似的协议,我们对7场景数据集进行评估,结果如表2所示。无论在未校准还是校准设置下,我们的方法均优于大多数基线方法。在更复杂的场景(如办公室、南瓜和厨房)中,与其余方法相比,我们的模型实现了显著更高的性能差距。平均而言,我们的方法优于所有基线方法。

资讯配图

7. 总结 & 局限性

在本研究中,我们引入了SLAM-Former,将完整的SLAM能力集成到一个Transformer中。通过交替的增量前端处理和全局后端处理,SLAM-Former使前端和后端能够协同工作并相互增强,从而实现整体性能提升。结果表明,在跟踪和重建方面,SLAM-Former显著优于基于传统几何基础的SLAM方法。此外,与使用真实世界数据测试的传统方法相比,SLAM-Former实现了极具竞争力的跟踪性能和卓越得多的重建效果。

局限性 SLAM-Former仍存在一些局限性。首先,我们在后端使用完全注意力机制来替代传统SLAM中的回环检测与优化。然而,使用完全注意力机制会因O(n 2)的时间复杂度而产生问题。我们相信,在未来的工作中,这可以通过SLAM方法(使用稀疏图)或Transformer技术(如稀疏注意力和标记合并)来解决。其次,SLAM-Former不支持局部前端模式;在推理过程中,所有先前的KV缓存都应输入到模型中。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉硬件,官网:www.3dcver.com

资讯配图

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

3D视觉全栈学习课程:www.3dcver.com

资讯配图

3D视觉交流群成立啦,微信:cv3d001

资讯配图

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
快讯|宇树机器人“围殴”测试展硬实力;Optimus AI灵魂人物接连出走;智元机器人GO - 1通用具身基座大模型全面开源
马斯克辟谣“万台人形订单”;Figure再融超10亿美元;宇树官宣开源
京东AI一揽子开源!超多核心项目全开源,GitHub万star项目也有新进展了
创新引领,开源开放,共创智能世界生态新选择
百度开源视觉理解模型Qianfan-VL!全尺寸领域增强+全自研芯片计算
探索代码理解上限!Meta新开源“代码世界模型”,LeCun带领的FAIR出品,小扎继续挖人~
一周AI丨DeepSeek首登《自然》封面;英伟达50亿美元入股英特尔;宇树开源机器人世界大模型;Figure估值2700亿……
刚刚,小米最强语音大模型开源!亿小时训练,讲脱口秀说快板溜得很
智元机器人GO-1通用具身基座大模型全面开源!
快讯|西门子医疗与史赛克合作开发手术机器人;OpenMind 发布智能机器人开源操作系统;挪威ADAR 传感器公司开启全球扩张
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号