点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
作者:Juncheng Mu | 编辑:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息
标题:Diff2I2P: Differentiable Image-to-Point Cloud Registration with Diffusion Prior
作者:Juncheng Mu, Chengwei Ren, Weixiang Zhang, Liang Pan, Xiao-Ping Zhang, Yue Gao
机构:Tsinghua University、Shanghai AI Laboratory
原文链接:https://arxiv.org/abs/2507.06651
代码链接:https://github.com/mujc2021/Diff2I2P
1. 导读
学习跨模态对应关系对于图像到点云(I2P)配准至关重要。现有方法大多通过度量学习来强制实现跨模态特征对齐,却忽略了图像数据与点云数据之间固有的模态差异。因此,这种模式难以确保准确的跨模态对应关系。为此,受近期大型扩散模型在跨模态生成方面取得成功的启发,我们提出了Diff2I2P,这是一种完全可微的I2P配准框架,利用新颖且有效的扩散先验来弥合模态差异。具体而言,我们提出了一种控制端分数蒸馏(Control-Side Score Distillation,CSD)技术,从深度条件扩散模型中蒸馏知识,以直接优化预测的变换。然而,由于对应关系检索和PnP(Perspective-n-Point)求解器的不可微性,变换的梯度无法反向传播到跨模态特征上。为此,我们进一步提出了一种可变形对应关系调优(Deformable Correspondence Tuning,DCT)模块,以可微的方式估计对应关系,然后使用可微的PnP求解器进行变换估计。通过这两种设计,扩散模型可作为强大的先验,指导图像和点云的跨模态特征学习,从而形成稳健的对应关系,显著提高配准性能。广泛的实验结果表明,Diff2I2P始终优于最先进的I2P配准方法,在7-Scenes基准数据集上的配准召回率提高了7%以上。代码将在https://github.com/mujc2021/Diff2I2P上公开。
2. 效果展示
CSD通过利用扩散先验来有效评估预测变换的示意图对齐良好的深度和图像对(顶部)导致较低的CSD损失,并产生清晰的输出图像。相比之下,对齐不当的情况会引入明显的瑕疵(红色圆圈),从而导致较高的CSD损失。

7-scene数据集的定性结果。红线表示错误的对应关系(三维距离大于5厘米),而绿线表示正确的对应关系。

3. 引言
图像和点云之间的跨模态配准是计算机视觉中的一项关键任务,在机器人技术、增强现实/虚拟现实(AR/VR)等领域有着广泛应用。给定同一场景的图像和点云,目标是估计一个刚性变换,使点云与图像的相机坐标系对齐。与单模态配准(如图像配准和点云配准)相比,后者已进行了数十年的广泛研究,而跨模态配准由于重叠区域有限、噪声严重、模态不对齐等问题,面临着更大的挑战。
大多数现有方法遵循图像或点云配准的技术路线,即匹配与变换。它们首先提取一组跨模态对应关系,然后将变换估计问题作为PnP问题,使用PnP-RANSAC进行求解。因此,检索准确的假设对应关系集对于稳健配准至关重要。近期的研究进展推动了基于学习的匹配方法的显著进步,这些方法通常采用度量学习技术(如对比损失和三元组损失)来强制实现图像和点云特征之间的对齐。
尽管基于学习的跨模态配准取得了快速进展,但一个显著障碍仍然阻碍着当前方法的性能,即模态差异。由针对2D图像和针对3D点的特征提取方法大多仅关注各自模态内的局部特征学习,使得2D主干网络难以从图像中有效学习3D几何特征。反之,点云的无色特性使得3D主干网络无法充分捕捉场景的纹理特征。然而,现有方法主要关注度量学习以强制缓解模态不对齐问题,却忽略了这一差异,导致性能有限。
为解决这些问题,我们提出了一种新颖的控制端分数蒸馏(CSD)技术,从深度条件扩散[43,61]模型中蒸馏2D纹理和3D几何知识,以促进跨模态特征学习以实现配准。该模型以RGB图像和深度图作为条件输入,通过将2D图像纹理与3D点几何信息相结合来指导去噪过程,从而生成新颖的高保真图像。CSD的灵感在于,不对齐的深度图和图像对会损害该预训练扩散模型的噪声预测能力,导致严重的生成伪影。这种失败可以通过CSD损失以分数蒸馏采样(Score Distillation Sampling,SDS)的方式进行建模,如下所示。首先,根据预测的变换将点云投影为深度图像。然后,将输入图像和深度图像输入扩散模型,在ControlNet侧进行SDS。这样,跨模态扩散可以有效指导对齐,使图像和点云主干网络能够学习到独特的跨模态特征。我们在图1中展示了CSD的贡献。左上角选定的查询点包含以几何特征为主的特征,这些特征对于2D主干网络来说难以学习。未经过CSD训练的像素特征无法捕捉几何特征,导致特征匹配模糊。而经过CSD训练的特征则有效建模了椅腿的3D几何形状,实现了准确且集中的特征匹配。
尽管CSD有效促进了跨模态特征学习,但对应关系形成过程的不可微性阻止了变换的梯度反向传播到主干网络。因此,我们进一步提出了一种可变形对应关系调优(DCT)模块,该模块以对应关系的特征和坐标作为输入,并预测每个对应关系的点偏移。通过利用跨模态特征,DCT以可微的方式估计偏移,同时优化点-像素对的对齐。最后,我们利用可微的PnP求解器BPnP,通过可微地估计变换,将变形后的对应关系与CSD联系起来。这样,梯度可以通过偏移流动并反向传播到主干网络。训练完成后,我们只需丢弃扩散模型,仅使用蒸馏后的特征主干网络进行推理,从而实现快速运行和低显存消耗。
基于这些,我们提出了Diff2I2P,一种完全可微的跨模态配准方法,能够弥合图像和点云之间的模态差异。在7-Scenes和RGB-D Scenes V2基准数据集上的广泛实验证明了我们的方法在场景适应性方面的优越性。
4. 主要贡献
我们的主要贡献有三方面:
我们设计了一种完全可微的图像到点云跨模态配准方法,该方法利用扩散先验来弥合模态差异。
我们提出了一种新颖的控制端分数蒸馏(CSD)技术,从深度条件扩散模型中蒸馏对齐知识,以促进跨模态特征学习。
我们提出了一种可变形对应关系调优(DCT)模块,以实现可微的特征匹配,同时优化对应关系集。
5. 方法
Diff2I2P流程。我们构建了一个完全可微的跨模态配准流程。给定输入图像和点云,我们首先进行特征匹配以获得初始对应关系。接下来,可变形对应关系调优模块以它们的特征作为输入,并预测点云坐标偏移,在确保可微性的同时优化对应关系。随后,我们使用BPnP进行可微变换估计,并使用预测的变换将点云投影为深度图。然后,将输入图像和该深度图发送到计算控制端分数蒸馏(CSD)损失,以蒸馏跨模态特征,其梯度通过整个配准网络反向传播以进行充分优化。


6. 实验结果

7. 总结 & 未来工作
本文介绍Diff2I2P,这是一个完全可导的跨态配准管道,能够弥合图像和点云之间的模态差异。通过我们提出的CSD损失函数,训练过程可以从预训练的受深度控制的扩散模型中提炼出2D纹理和3D几何知识,用于跨模态特征学习我们还进一步提出一个DCT模块,以在修正不良匹配的同时引入可导性。通过结合一个可导的BPnP求解器,我们构建了一个完全可导的网络,以实现充分的优化。在7-Scenes和RGBD Scenes V2基准上的广泛实验展示了Diff2I2P的先进性能,显著超越了最强的基线。我们希望我们提出的方法能激发在可微分配准和弥合模态差距方面的进一步研究。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
3D视觉硬件,官网:www.3dcver.com
3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!