CVPR'25开源 | 还在用ICP?点云配准新框架:DFAT凭啥霸榜4个数据集?

3D视觉工坊 2025-09-17 07:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:NNU三维世界

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图





资讯配图

题目:Dual Focus-Attention Transformer for Robust Point Cloud Registration

作者:Kexue Fu, Mingzhi Yuan, Changwei Wang, Weiguang Pang, Jing Chi, Manning Wang, Longxiang Gao

来源:2025 IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR)

论文链接:

https://cvpr.thecvf.com/virtual/2025/poster/35170

代码连接:https://github.com/fukexue/DFAT

01

引言

近年来,点云配准的粗到细方法取得了巨大成功,但很少有研究深入探索粗尺度和细尺度下特征交互的影响。通过可视化注意力分数和对应关系,本文发现现有方法在特征交互过程中无法在这两个尺度上实现有效的特征聚合。具体来说,如图 1(b,d)所示,本文可视化了 GeoTransformer 最终配准的超点注意力分数和预测的对应关系。从图中可以发现,超点聚合了所有相似区域的信息,使得生成的对应关系缺乏判别性和几何一致性。在密集交互的影响下,正确的交互被稀释,导致特征接近重复区域特征的平均值。

此外,一些噪声也被纳入交互过程,进一步限制了生成特征的质量。本文观察到 GeoTransformer 忽略了细粒度点之间的特征交互(为简化表达,后续将细粒度点统一称为 “点”)。这导致即使超点对应关系正确,也难以建立准确的细粒度点对应关系。如图 1(e)所示,GeoTransformer 的结果表明,仅依靠超点对应关系和局部特征来建立对应关系会导致大量错误。

为解决这一问题,本文提出了一种双聚焦注意力 Transformer 框架(Dual Focus-Attention Transformer, DFAT),该框架仅关注与当前点相关的点进行特征交互,避免了与无关点的交互。在粗尺度上,本文设计了一种由稀疏关键点引导的超点聚焦注意力 Transformer,这些稀疏关键点选自超点的邻域。在细尺度上,本文仅在属于同一超点的点集之间进行特征交互。

总的来说,本文的贡献如下:

• 本文揭示了现有方法中与密集特征交互相关的一个潜在问题,密集特征交互损害了几何一致性和判别性,导致配准性能不佳。为解决这一问题,提出了一种名为 DFAT 的框架,该框架利用双层面的聚焦注意力特征交互来提高整体性能。

• 提出了一种双空间一致性匹配模块,该模块充分利用几何一致性来提高超点匹配的质量。

• 引入了一种基于线性注意力的模块,用于优化点特征,以获得更好的精细对应关系。

• 在一系列数据集上进行了全面的实验,本文的方法在不同设置下的 3DMatch、KITTI 和 Augmented ICL-NUIM 数据集上均达到了新的最先进性能。

资讯配图

图1 注意分数和对应的可视化。(a)输入点,其中红色星号表示该点为查询点。(b) Geotransformer自注意学习到的注意分数。红色圆圈表示两个点云的特征聚合不一致,信息冗余,注意分数差异较大。(c)通过本文的方法获得的注意力分数。黑色圆圈表示本质上是相同的。(d)所有密集通信。(e)示意图说明了属于同一叠加点对的单个点之间可能存在的错误对应关系。

02

方法

给定两个点云P = {pi∈R3 | i = 1,2,…,N }, Q = {qi∈R3 | i = 1,2,…,M},点云配准的目的是估计一个由旋转R∈SO(3)和平移T∈R3组成的刚性变换T = {R, T},以使它们最好地对齐。本文的流程如图2所示。本文的方法建立在 GeoTransformer 之上,它也遵循从粗到精的范式。首先利用 kpconvn - fpn 主干提取不同尺度下P和Q的局部特征;将下采样最粗点P^, Q^及其在FP^, FQ^中的对应特征馈入补丁间匹配模块进行粗匹配。这些点也被称为超点。将主干输出的上采样点P~, Q~和特征FP~, FQ~送入补丁内匹配模块,生成一系列密集对应集{Ci}。接下来,基于上述一系列密集对应集,分别计算一组变换候选者{Ti}。最后,本文使用局部到全局的配准方案来选择不含RANSAC的最终转换T = {R, T}。

资讯配图

图2 本文的流程概述。在局部特征提取过程中,主干对输入点云进行下采样,提取多尺度特征。将最粗点即超点送入补丁间匹配模块实现粗匹配,将上采样的密集点送入补丁内匹配模块生成一系列密集对应集。最后,本文计算了一组密集对应的一系列变换候选者,并使用局部到全局配准方案选择了最优变换。

1

2.1.局部特征提取 

如图 2(左上角)所示,KPConv-FPN 骨干网络采用 U 型结构。它首先对输入点云 {P, Q} 进行逐步下采样,并为其提取特征。本文将最后一次下采样得到的点称为超点{P^, Q^}。它们对应的 d 维特征记为 {FP^ ∈ R|P^|×d, FQ^ ∈ R|Q^|×d},其中|P^| 和 |Q^| 分别表示 P 和 Q 中的超点数量。这些超点及其特征会被输入到跨补丁匹配模块进行粗匹配。在对下采样点提取特征后,骨干网络会对下采样点云进行逐步上采样,同时为其提取特征。最终,输出密集点云P 和Q~ ,其分辨率为 P 和 Q 的 1/2。它们对应的d维特征为 FP~ ∈ R|P~|×d和 FQ ~∈ R|Q~|×d。这些带特征的密集点将被输入到补丁内匹配模块,生成一系列密集对应集,用于后续的变换估计模块。

2

2.2 跨补丁匹配模块

给定超点 {P^, Q^} 及其特征 {FP^, FQ^},本文首先进行粗尺度匹配。准确的超点匹配高度依赖特征的判别性,但密集交互不可避免地引入错误和冗余信息交互,干扰特征的判别性。为此,本文将 GeoTransformer 中的超点匹配模块修改为跨补丁匹配模块。如图 2(底部)所示,该模块包含两个子模块:首先,超点聚焦注意力 Transformer 通过依次执行密集特征交互和聚焦注意力特征交互来编码上下文信息,增强特征的判别性,该模块重复 L次;然后,双空间一致性模块在特征空间和几何空间的双重约束下实现准确的超点匹配。最终,超点层面的可靠对应会被输入到后续的补丁内匹配模块。

点聚焦注意力 Transformer:由于全局上下文信息在点云配准中至关重要,Predator 和 GeoTransformer 等现有工作利用图网络或 Transformer 编码点云内部及点云间的依赖关系,但密集交互通常导致性能不佳。为解决这一问题,本文提出聚焦注意力 Transformer,引入稀疏关键点交互这一新的归纳偏置。该 Transformer 首先从超点的邻域中选择一系列关键点,通过与这些稀疏关键点的交互增强超点的特征判别性和一致性。

具体而言,给定输入超点 {P^, Q^}及其特征{FP^, FQ^},聚焦注意力 Transformer 先采用 GeoTransformer 中的几何 Transformer 编码点云内部及点云间的全局信息。在此过程中,几何 Transformer 中的几何自注意力模块和交叉注意力模块分别为单个点云和两个点云间编码变换不变的相对位置信息,最终生成包含{P^, Q^} 全局上下文信息的特征 {FP^geo ∈ R|P|×d, FQ^geo ∈ R|Q|×d}。

由于 {FP^geo, FQ^geo} 中存在冗余交互信息,本文通过与关键点的稀疏交互进一步增强特征判别性。具体而言,在具有全局感受野的超点特征基础上,缩小超点特征的聚合范围,使其在保持全局判别性的同时更关注局部一致性。首先,将超点的注意力范围限制在其邻域点内(邻域计算方法与 KPConv 一致)。由于两个点云中超点对的邻域点不完全重叠,本文从邻域点中选择 top-k 个关键点,以保持超点聚合特征的一致性。

关键点选择基于两个指标:一是计算超点 p与其多个邻域点 pin 的特征相似度(FSSN),公式为:

资讯配图

二是计算特征空间中任意两点相似度的显著性 SP^ = FP^geo (FP^geo) T,通过将两个点云的特征合并为整体,按以下公式实现:

资讯配图

其中,softmaxrow (・) 和 softmaxcol (・) 分别表示沿行和列执行 softmax 操作。

随后,将邻域范围内的相似度矩阵Ŝsim 和显著性矩阵Ŝsal 相乘,得到每个邻域点的重要性分数 η̂:

资讯配图

本文选择分数最高的前 k 个邻域点作为稀疏关键点,同理。然后采用普通注意力实现P^与P^:,key、Q^ 与Q^:,key 之间的特征交互,最终输出增强后的特征 {FP^enh ∈ R|P|×d, FQ^enh ∈ R|Q|×d}到双空间一致性匹配模块,建立超点对应。

双空间一致性匹配模块:一般粗到细配准方法通过双归一化操作建立超点对应,但受部分重叠和重复结构影响,难免产生错误匹配,增加后续精细匹配难度。为在早期过滤错误对应,双空间一致性匹配模块充分利用以下特性:若候选超点对应正确,则其几何空间中的最近邻在特征空间中也具有高相似度。如图 3 所示,超点对应及其邻域点具有局部一致性时更可靠。

资讯配图

图3 双空间一致性匹配。

具体而言,给定增强特征 {FP^enh, FQ^enh},首先利用的双归一化操作得到匹配分数矩阵 M̂。然后从 M̂中选择分数最高的前 KM 个元素,建立候选超点对应Ĉ = {(pi,qj) ∈ R6},其中 M̂ij 表示P 中第 i 个超点与Q中第 j 个超点的匹配分数。

随后,为上述超点对应构建几何空间中的最近虚拟超点对,并在特征空间中检查(如图 3 中虚线所示的虚拟对应)。对于每个超点对应ĉt = (pi^, qj^),分别为pi^和qj^ 寻找最近超点pin^和qjn^,建立对应ĉtnn = (pin^,qjn^)。若ĉtnn 的匹配分数大于阈值 ε = 1/(|P^|*|Q^|),则保留ĉt,否则丢弃。保留的对应Ĉ' 将被输入到补丁内匹配模块进行精细匹配。

3

2.3 补丁内匹配模块

通常,精细匹配通过传播超点对应生成密集对应和多个变换候选,本文的补丁内匹配模块流程类似。与 GeoTransformer的点匹配模块不同,本文不直接将骨干网络学习到的点特征输入 Sinkhorn & Selection 层获取精细对应 —— 如图 1(d)所示,即使超点对应正确,点特征也可能因缺乏局部上下文信息而产生错误对应。

相反,本文在超点对应附近的点之间执行注意力操作以编码局部上下文信息,具体是将这些点特征输入点聚焦注意力模块,增强细尺度特征的判别能力,该模块重复 Lp 次。为避免过高计算复杂度,本文采用线性注意力 [作为点聚焦注意力模块,公式为:

资讯配图

其中,Qi、Ki、Vi 分别为注意力中同一超点内一系列点的查询、键和值,φ(・) 表示 elu 激活函数。

基于这些增强特征,首先计算特征间的相似度,再用 Sinkhorn 算法优化相似度矩阵,输出分配矩阵 A。然后从 A 中按元素大小选择 m 个对应,形成点对应集 Ci。最终,所有精细对应集合并为最终的密集对应 C。

4

2.4 变换估计

为了避免RANSAC迭代的缓慢收敛和不稳定性,本文使用局部到全局的配准方案来估计最终的输出转换。具体地说,首先,给定密集对应C和精细对应集{Ci}。接下来,在局部阶段,对于每个输入对应集Ci,本文通过加权SVD计算一个变换候选者Ti = {Ri, Ti}。在全局阶段,本文计算每个候选转换的内层数,并选择具有最大内层数的一个作为最终转换T = {R, T}。

资讯配图

03

实验

1

3.1 室内数据集

3DMatch 是最知名的室内配准数据集之一,包含 62 个室内场景。本文遵循官方的划分方式,使用 46 个场景进行训练,8 个场景用于验证,8 个场景用于测试。本文在 3DMatch 和 3DLoMatch 两种设置下对所有方法进行了评估。在 3DMatch 设置中,点云对的重叠率超过 30%;在 3DLoMatch 设置中,点云对的重叠率在 10% 到 30% 之间。

结果如表 1 所示。本文的方法在 3DMatch 和 3DLoMatch 上均取得了最佳性能。它在 3DMatch 上比之前表现最好的方法高出 3,4 个百分点,在 3DLoMatch 上高出 2.8 个百分点,验证了其在高重叠率和低重叠率情况下的有效性。更重要的是,通过引入稀疏特征交互这一新的归纳偏置,本文的方法在有无 PEAL 的情况下都成功提升了 GeoTransformer的性能,证明了避免不合理特征交互的重要性。此外,在与 PEAL 结合的设置中,本文的方法通过更少的迭代次数实现了更高的配准召回率。

资讯配图

表1 3DMatch和3DLoMatch的评价结果。

2

3.2 室外数据集

如表 3 所示,RegFormer 的配准精度超越了所有经典方

KITTI 是最知名的室外自动驾驶数据集之一,常被用于评估点云配准性能。本文也遵循其官方划分,使用 0-5 场景进行训练,6-7 场景用于验证,8-10 场景用于测试。由于由 GPS 获取的真值变换存在一定误差,本文像大多数研究一样使用 ICP 算法对其进行优化。

结果如表 2 所示。本文的方法在所有指标上都取得了最佳性能。通过引入新的归纳偏置和局部特征交互,本文的方法成功帮助 GeoTransformer 实现了更准确的配准。这一实验结果验证了合理的特征交互在点云配准中发挥着重要作用。


资讯配图

表2 KITTI评价结果。

3

3.3多视角配准

本文使用 Augmented ICL-NUIM [8] 来评估本文的方法在多视角配准上的性能。Augmented ICL-NUIM 是在 ICL-NUIM 的基础上添加噪声构建而成的,包含 4 个场景。本文按照中的设置进行了这项实验。具体来说,本文首先使用本文的方法进行成对配准,然后通过全局优化算法对姿态进行优化

结果如表 3 所示。本文的方法在几乎所有指标上都达到了最先进的性能,这表明本文的方法具有很强的泛化能力。除了上述实验结果外,本文还在更多数据集上对本文的方法进行了验证。

资讯配图

表3 增强型ICL-NUIM评价结果。

04

结论

在这项工作中,本文对粗-细点云配准方法在粗尺度和细尺度上的特征相互作用进行了深入分析。对于粗尺度的特征交互,本文发现先前的工作中密集的特征交互引入了冗余信息,这阻碍了这些方法获得鲁棒性。为了解决这个问题,本文在密集交互之后级联了一个稀疏交互的超点聚集注意力模块。通过混合特征交互,可以实现更可靠的粗匹配。对于精细尺度上的特征交互,本文增加了一个单独的点聚焦模块来建模局部上下文信息,避免了产生错误的精细对应。在3DMatch和KITTI上的大量实验证明了本文的方法的优越性。此外,本文的方法对增强型ICL-NUIM有很好的泛化效果,显示了它的实用潜力。本文仅在刚性点云配准中评估了本文的方法的性能。在未来,作者将进一步扩展本文的方法到非刚性点云配准。

资讯配图

文 | 楚舜喆    排版 | 楚舜喆

审核 | 蒋腾平

团队 |  南京师范大学地理科学学院GISA-Team

本文仅做学术分享,如有侵权,请联系删文。

3D视觉硬件,官网:www.3dcver.com

资讯配图

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

3D视觉全栈学习课程:www.3dcver.com

资讯配图

3D视觉交流群成立啦,微信:cv3d001

资讯配图

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC 开源
more
【AI】王坚院士外滩演讲全文:AI时代,开源的内涵正在发生“革命性变化”!
具身智能开源周:导航、操作、运动大模型及数据集批量上线,上海AI实验室加速助力机器人训练及应用
反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假
20秒更新1T参数模型权重!Kimi最新开源了Checkpoint Engine
深度解析宇树UnifoLM-WMA-0开源模型!
刚刚,斯坦福用AI设计出新病毒并成功存活!Evo 2大模型在线创造生命,代码已开源
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
告别ROS的繁琐, 易用易学的机器人学习系统: 华为诺亚面向机器人学习的开源Python框架
人形机器人20分钟学会荡秋千!斯坦福大学开源软硬件协同系统RTR | CoRL 2025
【源头活水】CVPR 2025 | 打破壁垒!多模态统一学习新范式来了,数据、模型、代码全开源
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号