ECCV'26开源 | LightGlue宣告退场！LoMa：局部特征匹配精度暴涨18个点，SfM与SLAM新突破口！

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎加入！ ECCV'26开源 | LightGlue宣告退场！LoMa：局部特征匹配精度暴涨18个点，SfM与SLAM新突破口！图1

论文信息

标题：LoMa: Local Feature Matching Revisited

作者：David Nordström, Johan Edstedt, Georg Bökman, Jonathan Astermark, Anders Heyden, Viktor Larsson, Mårten Wadenbäck, Michael Felsberg, Fredrik Kahl

机构：Chalmers University of Technology、Linköping University、University of Amsterdam、Centre for Mathematical Sciences, Lund University

原文链接：https://arxiv.org/abs/2604.04931

代码链接：https://github.com/davnords/LoMa

导读

局部特征匹配长期以来一直是诸如基于运动结构的3D视觉系统中的核心组成部分，但其发展速度却远远落后于现代数据驱动方法的快速进步。那些新的方法，比如前馈重建模型，能够得益于更大规模的数据集，而局部特征匹配模型仍然只能在规模较小的数据集上进行训练。在本文中，我们从数据驱动的角度重新审视了局部特征匹配技术。我们提出的方法名为LoMa，它结合了大规模且多样化的数据、先进的训练技术、更大的模型容量以及更强的计算能力，从而实现了显著的性能提升。由于现有的标准测试数据主要来自那些成功的3D重建结果，因此对特征匹配技术的评估往往仅限于那些相对简单的图像对。为了解决这一问题，我们从互联网上收集了1000对极具挑战性的图像对，将其构建成一个名为HardMatch的新数据集。HardMatch数据集中的对应关系是由作者们手动标注的。通过大量的测试，我们发现LoMa在各项指标上都取得了出色的表现：在HardMatch数据集上的性能比现有的最佳方法ALIKED+LightGlue高出18.6 mAA，在WxBS数据集上的性能则高出29.5 mAA，在在InLoc上的得分为+24.2，而在RUBIK上的AUC值为+24.2，在IMC 2022中的得分则为+12.4 mAA。

效果展示

重新探讨局部特征匹配。我们引入了HardMatch这一具有挑战性的手工标注匹配基准数据集，以及LoMa这一快速且准确的一系列基于局部特征的模型。(a)LoMa成功匹配了LightGlue失效时的HardMatch中的对齐对象;(b)HardMatch的难度显著高于之前的基准数据集。

ECCV'26开源 | LightGlue宣告退场！LoMa：局部特征匹配精度暴涨18个点，SfM与SLAM新突破口！图2

不同阈值下HardMatch的准确率。LoMa的表现略优于最佳密集匹配器，并且显著优于LightGlue.

ECCV'26开源 | LightGlue宣告退场！LoMa：局部特征匹配精度暴涨18个点，SfM与SLAM新突破口！图3

引言

运动恢复结构（Structure-from-Motion, SfM）旨在从无序图像中重建三维世界，长期以来一直是计算机视觉的核心问题。SfM流程中的一个关键部分，通常称为局部特征匹配，是通过检测稀疏关键点，并用高维表征（传统上如SIFT）描述其局部外观来进行图像匹配，其中通过相关描述子来找到对应关系。为了提高鲁棒性和准确性，神经网络模型已被引入，既用于检测和描述，例如SuperPoint、ALIKED和DeDoDe，也用于稀疏匹配，例如SuperGlue和LightGlue。这种范式能产生快速且准确的匹配，并且仍然广受欢迎。尽管在实践中仍大量使用，但近年来局部特征匹配在文献中已被无检测器方法（如LoFTR和RoMa）以及前馈重建模型（如MASt3R和VGGT）的兴起所掩盖，这些模型通常使用比局部特征匹配方法多几个数量级的数据进行训练。在无检测器方法的语境下，经常有人认为基于检测器的局部特征匹配具有根本性的局限，并且大量研究致力于如何扩展无检测器的SfM，以克服这些所谓的局限。我们认为，有关局部特征匹配器已死的报道是大大夸张了。

在本文中，我们从数据驱动的角度重新审视局部特征匹配。具体而言，我们专注于：(i) 整理大规模且多样化的训练数据混合，以及描述子和匹配器可扩展的训练方案；(ii) 沿两个轴增加训练计算量：数据规模（图像对的数量和多样性）与模型容量（参数数量）。通过大量实验和消融研究，我们证明这些改变能大幅提升匹配性能，在广泛的基准测试上均表现优异。我们的模型大幅超越了先前的局部特征方法，并且在多种设置下，与最近的稠密匹配和前馈重建流程相比具有竞争力，甚至更胜一筹。图1a展示了一个极富挑战性的案例，我们的匹配器成功解决了它。

为了有意义地评估匹配能力的进步并指导未来研究，精心设计的评估和基准测试至关重要。历史上，特征匹配的改进是在源自SfM重建的数据集上衡量的，如MegaDepth。然而，正如图1b所示，这些基准测试中许多现已接近饱和：对于大部分图像对，当前最先进的匹配器已经恢复了很高比例的正确对应关系。当基准测试趋于饱和时，即使模型在鲁棒性或泛化性上得到有意义的提升，进一步的改进也变得难以观察。这掩盖了剩余的失效模式，并有可能鼓励对基准特定产物的过拟合，例如特定的几何验证设置，而不是推进基础的匹配能力。为了清晰地衡量进展，需要更具挑战性和多样性的基准。然而，现有的困难图像匹配基准，如WxBS，规模太小，无法可靠地测量模型的改进。

为应对这些局限，我们为一个包含100个不同类别、共1000对图像的数据集手动标注了图像对应关系，并称之为HardMatch。该数据集被组织为9个具有挑战性的组别，涵盖多样且极端的匹配场景。我们发现前馈重建方法在该基准上大多失败，甚至最先进的稠密匹配器也举步维艰。在局部特征匹配器回归的背景下，我们展示了我们的模型家族LoMa，通过使用更多样化的数据、现代训练方案和增加的计算量进行训练，其性能甚至可以超越稠密方法（并远超稀疏方法）。我们的模型LoMa-{B（基础版）、L（大型）、G（巨型）}，为未来特征匹配的进步奠定了强大的基线。

主要贡献

我们的主要贡献可总结如下：

我们从现代数据驱动的角度重新审视局部特征匹配（第3节），引入了使用MVS生成真值的新训练数据集和训练方案，并将公开发布。
我们提出HardMatch，一个包含1000对手工标注图像对的挑战性基准，它轻量、规模大且足够困难，能为未来研究提供有意义的信号。我们还报告了基于独立标注者的人类基线（第4节）。
我们发布了一个快速且准确的描述子-匹配器模型家族，在HardMatch上达到最先进性能（比LightGlue高出18.6 mAA），并在十多个既定匹配和视觉定位基准上取得了强劲结果。第5节提供了全面的评估和消融实验。

方法

我们的描述子遵循DeDoDe架构，而匹配器基于LightGlue。输入的关键点和描述子通过L个相同的自注意力和交叉注意力块进行处理，逐步优化描述子。当描述子维度（ddesc）与匹配器嵌入维度（demb）不同时，我们使用一个可学习的线性投影。

自注意力机制使每个点关注同一图像中的所有点，而交叉注意力则使每个点关注另一图像中的所有点。自注意力计算中使用了旋转位置嵌入（RoPE），使注意力分数依赖于相对位置 xi − xi′。交叉注意力计算中未使用位置嵌入。

在推理时，我们使用最后一层输出的描述来定义双重softmax矩阵Pij，如公式(3)所示。当Pij在行和列上均为最大值时，即匹配是相互的，则注册对应关系(i, j)。我们丢弃Pij < µ的匹配，其中µ = 0.1。

我们发布了LoMa匹配器的三个主要变体：B、L和G，尺寸逐步增大。所有变体共享相同的架构，包含L=9个交替的自注意力和交叉注意力层的Transformer块，始终使用维度为64的注意力头。它们的区别仅在于嵌入维度，分别为256、512和1024。我们还发布了B128，使用更轻量的描述子DeDoDe-B（而非G），ddesc=128，为视觉定位等任务提供轻量级特征集。

ECCV'26开源 | LightGlue宣告退场！LoMa：局部特征匹配精度暴涨18个点，SfM与SLAM新突破口！图4

实验结果

我们将LoMa与最先进的匹配器、检测+描述加相互最近邻匹配的方法，以及前馈重建方法在相对位姿估计上进行比较。我们在表2中报告了MegaDepth-1500和ScanNet1500上的结果。LoMa在两个数据集上均显著优于其他稀疏匹配器。具体而言，在MegaDepth和ScanNet上，LoMa-L与其他稀疏匹配器相比，在AUC@5°上分别提升了8.4和12.9。

ECCV'26开源 | LightGlue宣告退场！LoMa：局部特征匹配精度暴涨18个点，SfM与SLAM新突破口！图5

无地图。无地图重定位基准测试用于评估在给定单张参考图像且无地图的情况下，将相机定位于度量空间的能力。为获取单目度量深度，我们使用了DA3。遵循该基准，我们采用虚拟对应重投影误差（VCRE<90px），并在表3中报告验证集结果。与其他稀疏匹配器相比，LoMa-G的精度提升了约20个百分点。

InLoc。我们使用HLoc流程在InLoc上评估视觉定位，并在表3中报告结果。我们发现LoMa显著优于其他稀疏匹配器。最值得注意的是，在DUC2最严格阈值下，LoMa-G相比第二好的匹配器提升了超过20个百分点。

牛津昼夜。我们在牛津昼夜数据集上评估了挑战性光照条件下的视觉定位。与InLoc不同，该评估要求特征匹配器使用白天数据库图像构建SfM模型。我们使用HLoc流程，并在表3报告夜间查询的中位数结果。在最严格阈值下，LoMa-G相比其他稀疏匹配器准确率提升了超过14个百分点。

ECCV'26开源 | LightGlue宣告退场！LoMa：局部特征匹配精度暴涨18个点，SfM与SLAM新突破口！图6

总结

我们重新审视了局部特征匹配这一经典问题，并表明将大规模数据与现代实践相结合能带来显著的性能提升。为此，我们引入了：(i) HardMatch，一个极具挑战性的评估数据集，由1000对手工标注图像对组成；(ii) LoMa，一个在HardMatch及已有基准IMC 2022和WxBS上均达到最先进性能的模型家族，甚至超越了稠密匹配器。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

。

ECCV'26开源 | LightGlue宣告退场！LoMa：局部特征匹配精度暴涨18个点，SfM与SLAM新突破口！图7