地平线机器人GeoFlow-SLAM++：多相机VI-SLAM双前端鲁棒性革新！

点击下方卡片，关注「3DCV」公众号
选择星标，干货第一时间送达

来源：3DCV

星球内有20多门3D视觉系统课程、3DGS独家系列视频讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎加入！地平线机器人GeoFlow-SLAM++：多相机VI-SLAM双前端鲁棒性革新！图1

开篇痛点

视觉惯性SLAM（VI-SLAM）是机器人自主导航、增强现实和自动驾驶等领域的核心定位技术。经过多年的发展，单目和RGB-D VI-SLAM系统在理想条件下已经能够实现相当精确的位姿估计和地图构建。然而，当我们将这些系统部署到真实世界的复杂环境中时，其脆弱性便暴露无遗。

单相机和RGB-D视觉惯性SLAM系统受限于狭窄视场、特定传感器失效模式以及不可靠的跨会话重定位能力，在多相机协同、外观剧烈变化和复杂运动场景下容易出现跟踪丢失、地图漂移和重定位失败等致命问题。尤其在长时运行、光照变化剧烈或纹理匮乏的场景中，传统 handcrafted 特征（如ORB）的鲁棒性往往难以满足实际应用需求。

尽管多相机配置和深度学习特征被分别提出以缓解上述问题，但如何在一个统一的框架内有机融合多相机几何约束、IMU动态信息和神经网络特征的鲁棒匹配能力，并实现可靠的跨会话重定位，仍然是VI-SLAM领域亟待攻克的难题。

核心亮点

本文提出的GeoFlow-SLAM++是一款紧耦合多相机视觉惯性SLAM系统，采用统一体状态的中心化因子图优化框架，支持传统ORB与基于SuperPoint+LightGlue的NN-Feature双视觉前端灵活切换；系统融合多相机重投影约束、IMU预积分、双流光流/NN-Feature跟踪及跨视角位置识别，并可选引入跨视角一致伪深度扩展；在EuRoC、OpenLORIS、TUM、Hilti和自采手持数据集五大基准上全面验证，NN-Feature前端显著提升了外观挑战性场景的鲁棒性，统一跨视角重定位达到了LiDAR级性能。

论文信息

标题：GeoFlow-SLAM++: A Robust Multi-Camera Visual-Inertial SLAM System with Relocalization
作者：Wei Feng, Tingyang Xiao, Liu Liu, Xiaolin Zhou, Zhizhong Su
机构：Horizon Robotics
原文链接：https://arxiv.org/abs/2606.22051

导读

单目和RGB-D视觉惯性SLAM系统仍然容易受到有限视场、特定传感器失效模式以及不可靠的跨会话重定位的影响。为解决这些问题，本文提出GeoFlow-SLAM++——一款紧耦合多相机视觉惯性SLAM系统，将GeoFlow-SLAM从单个RGB-D传感器扩展到带有统一体-centric公式的标定多相机阵列。在该多相机框架内，GeoFlow-SLAM++支持两种可互换的视觉前端：传统ORB前端和基于SuperPoint与LightGlue构建的神经网络特征（NN-Feature）前端。系统在共享体状态上统一跟踪、建图与重定位，结合多相机重投影约束、IMU预积分、跨视角位置识别以及双流光流/NN-Feature跟踪，实现鲁棒定位。作为可选扩展，系统还能进一步融入来自RGB图像的跨视角一致伪深度预测作为辅助几何约束。本文在EuRoC、OpenLORIS、TUM、Hilti以及自采集手持多相机数据集上对GeoFlow-SLAM++进行了评估。结果表明，NN-Feature前端提升了外观挑战性场景的鲁棒性，多相机公式在Hilti上取得了有竞争力的定位精度，而统一的跨视角重定位设计在手持数据集上达到了与LiDAR可比的性能。

效果展示

图 4：Hilti Exp18 数据集上，与代表性基准算法的定性建图轨迹对比。所有绘制轨迹均对齐真值以方便可视化展示。放大区域分别对比本算法与 FAST-LIVO2、OpenMAVIS 的局部漂移误差；其中 FAST-LIVO2 为激光雷达 - 视觉 - 惯性基准方案，OpenMAVIS 为多目视觉 - 惯性基准方案。地平线机器人GeoFlow-SLAM++：多相机VI-SLAM双前端鲁棒性革新！图2

引言

同步定位与地图构建（SLAM）技术使机器人能够在未知环境中同时估计自身位姿并构建环境地图，是实现真正自主导航的基石。视觉惯性SLAM通过融合相机图像和惯性测量单元（IMU）数据，在尺度恢复、动态鲁棒性和短时无视觉跟踪等方面具有天然优势，已成为当前学术界和工业界的主流方案。

然而，传统的单目或RGB-D VI-SLAM系统存在若干根本性局限。首先，单相机视场有限，在狭窄空间或快速转向时容易丢失跟踪；其次，特定传感器（如RGB-D）在户外强光或高反射表面下会失效；最后，跨会话重定位（即机器人在先前地图中重新定位自身）依赖手工设计的特征描述子，在光照和视角变化剧烈时可靠性大幅下降。

多相机配置为解决视场和传感器失效问题提供了直观路径：通过在不同方向上布置多个相机，系统可以同时观测到更广阔的环境，并在某个相机失效时依靠其他相机维持跟踪。与此同时，以SuperPoint和LightGlue为代表的神经网络特征在特征检测和匹配的鲁棒性上已显著超越传统方法。然而，将多相机几何、IMU动态和NN-Feature整合到一个统一的优化框架中，并确保各模块之间的紧耦合与一致性，涉及复杂的状态变量设计、因子图构建和数据关联策略，这正是GeoFlow-SLAM++所聚焦解决的核心挑战。

主要贡献

本文提出GeoFlow-SLAM++，主要贡献概括如下：

多相机紧耦合VI-SLAM系统： 将GeoFlow-SLAM扩展为多相机视觉惯性SLAM系统，采用统一体状态的中心化因子图优化，实现跟踪、建图与重定位的有机融合；
双视觉前端灵活切换： 支持传统ORB前端和基于SuperPoint+LightGlue的NN-Feature前端，可根据场景需求灵活选择，NN-Feature前端显著提升外观挑战性场景的鲁棒性；
统一跨视角重定位： 融合多相机重投影约束、IMU预积分、双流光流/NN-Feature跟踪及跨视角位置识别，实现鲁棒的长期定位与重定位；
五大基准全面验证： 在EuRoC、OpenLORIS、TUM、Hilti和自采手持数据集上全面评估，多相机公式在Hilti上达到有竞争力的精度，跨视角重定位达到LiDAR级性能。

方法

GeoFlow-SLAM++在系统架构上延续了因子图优化的核心范式，但将状态变量从单相机/传感器坐标系提升到统一的体（body-centric）坐标系。具体而言，系统维护一个共享的体状态，包含机器人在世界坐标系中的位姿、速度和IMU偏置。所有相机观测、IMU测量和回环检测约束都被统一投影到该体状态上，通过最大后验估计进行联合优化。

地平线机器人GeoFlow-SLAM++：多相机VI-SLAM双前端鲁棒性革新！图3

地平线机器人GeoFlow-SLAM++：多相机VI-SLAM双前端鲁棒性革新！图4

地平线机器人GeoFlow-SLAM++：多相机VI-SLAM双前端鲁棒性革新！图5

在视觉前端层面，GeoFlow-SLAM++支持两种可互换的方案。传统ORB前端在计算资源受限或纹理丰富的场景下表现出色，提供快速的特征提取与匹配。NN-Feature前端则基于SuperPoint检测关键点和LightGlue进行匹配，在光照变化、运动模糊和弱纹理场景中展现出更强的鲁棒性。两种前端共享同一套后端优化流程，用户可根据应用需求实时切换或动态选择。

系统的约束因子包括：多相机重投影因子（将三维地图点投影到各相机图像平面并与观测特征比较）、IMU预积分因子（约束相邻关键帧之间的相对运动）、以及双流跟踪因子（同时使用光流和NN-Feature跟踪提供数据关联）。在重定位模块中，系统采用跨视角位置识别策略，将多相机观测聚合为统一的场景描述子，显著提高了在视角和光照变化下的回环检测成功率。作为可选扩展，系统还引入了基于RGB图像的跨视角一致伪深度预测，将其作为辅助几何约束加入因子图，进一步提升在几何退化场景中的鲁棒性。

实验结果

本文在五个基准数据集上对GeoFlow-SLAM++进行了全面评估。在EuRoC和TUM等传统室内数据集上，GeoFlow-SLAM++的ORB前端取得了与现有VI-SLAM系统相当的精度，而NN-Feature前端在部分困难序列上表现出更低的漂移率和更高的跟踪成功率。

地平线机器人GeoFlow-SLAM++：多相机VI-SLAM双前端鲁棒性革新！图6

地平线机器人GeoFlow-SLAM++：多相机VI-SLAM双前端鲁棒性革新！图7

地平线机器人GeoFlow-SLAM++：多相机VI-SLAM双前端鲁棒性革新！图8

在OpenLORIS和Hilti等更具挑战性的数据集上，多相机配置的优势得到充分体现。特别是在Hilti数据集的大规模室内场景中，多相机重投影约束有效减小了累积误差，使得GeoFlow-SLAM++在绝对轨迹误差（ATE）上达到了与现有最佳多相机SLAM系统竞争的水平。NN-Feature前端在处理Hilti中光照变化和弱纹理区域时，相比ORB前端显著减少了跟踪丢失的次数。

在自采集的手持多相机数据集上，本文重点验证了统一跨视角重定位设计的有效性。实验表明，该重定位模块能够在长时运行后快速、准确地将系统重新定位到先前构建的地图中，其成功率和精度达到了与LiDAR SLAM系统可比的性能水平。消融实验显示，移除跨视角位置识别后，回环检测率大幅下降；而禁用IMU预积分则导致快速运动序列上的轨迹严重漂移。这些结果充分验证了GeoFlow-SLAM++各模块设计的必要性。

总结&未来工作

本文提出了GeoFlow-SLAM++——一款面向多相机配置的紧耦合视觉惯性SLAM系统。通过统一体状态的中心化因子图优化，系统有效整合了ORB与NN-Feature双前端、多相机重投影、IMU预积分和跨视角重定位等模块。在EuRoC、OpenLORIS、TUM、Hilti和自采数据集五大基准上的全面评估表明，GeoFlow-SLAM++在定位精度和长期鲁棒性上均达到了先进水平，NN-Feature前端显著增强了外观挑战性场景下的跟踪稳定性，而统一跨视角重定位则实现了接近LiDAR的重定位性能。

未来的工作可以从以下方向深化：将语义信息融入因子图优化，实现语义SLAM与动态物体剔除；探索更多相机（如全向相机阵列）下的可扩展优化策略；进一步压缩NN-Feature前端的计算开销，使其能够在边缘计算平台上实时运行；以及将GeoFlow-SLAM++与占用预测、路径规划等下游任务深度集成，构建完整的自主导航解决方案。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

地平线机器人GeoFlow-SLAM++：多相机VI-SLAM双前端鲁棒性革新！图9