点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：我爱计算机视觉

「3D视觉从入门到精通」知识星球(点开有惊喜) ！星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

今天要介绍的论文是来自苏黎世联邦理工学院、南洋理工大学等机构的研究者们发表在 IEEE TPAMI 2025 上的工作。该研究创新性地将近期在生成任务中大放异彩的 扩散模型（Diffusion Model） 引入了多视图立体（Multi-View Stereo, MVS）领域，提出了一种全新的 MVS 框架。

基于此框架，论文推出了两种新方法：DiffMVS 和 CasDiffMVS。这里的 "Diff" 代表 "Diffusion"，"Cas" 代表 "Cascade"，表明了其技术核心。DiffMVS 旨在实现极致的效率，在运行时间和 GPU 内存方面达到业界顶尖水平；而 CasDiffMVS 则追求最高的精度，在多个主流 MVS 基准测试（如 DTU, Tanks & Temples, ETH3D）上均取得了 SOTA（State-of-the-Art）的性能。

这项工作通过将深度图细化过程建模为条件扩散过程，并设计了一系列创新模块，成功地平衡了三维重建的效率与精度，为 MVS 领域带来了新的思路和强大的基线模型。

论文标题： Lightweight and Accurate Multi-View Stereo with Confidence-Aware Diffusion Model
作者： Fangjinhua Wang, Qingshan Xu, Yew-Soon Ong, Marc Pollefeys
机构： 苏黎世联邦理工学院，南洋理工大学，新加坡科技研究局（A*STAR），微软
论文地址： https://arxiv.org/abs/2509.15220
代码地址： https://github.com/cvg/diffmvs
录用信息： Accepted to IEEE TPAMI 2025

研究背景与意义

多视图立体（MVS）技术旨在从不同视角的校准图像中重建场景的三维几何，是机器人、自动驾驶、虚拟/增强现实等领域的关键技术。

传统的学习式 MVS 方法通常采用“深度估计+深度图融合”的流程。为了提高效率和精度，许多先进方法采用“从粗到细”（coarse-to-fine）的策略：首先在低分辨率下估计一个粗略的深度图，然后逐步在高分辨率下进行细化。然而，这种策略高度依赖初始粗略深度图的质量，一旦初始估计出错，后续的细化过程很难纠正，容易陷入局部最优。

近年来，扩散模型作为一种强大的生成模型，通过从随机噪声中迭代去噪来恢复数据样本，在图像生成等任务上取得了巨大成功。其引入随机扰动的特性，天然具有跳出局部最优的能力。

作者受到启发，思考能否将扩散模型的这种“去噪生成”范式引入 MVS 的深度细化过程，从而克服传统方法的局限性。然而，将用于生成任务的扩散模型应用于具有判别性质的深度估计任务，面临着三大挑战：

扩散条件： 如何为扩散过程提供有效的几何约束和引导？
扩散采样： 如何在采样过程中利用非局部信息以实现更精确的优化？
扩散效率： 如何在保证性能的同时，避免经典扩散模型（如大型U-Net）带来的高计算开销？

本文正是为了解决这些挑战，提出了一套完整的基于条件扩散模型的 MVS 框架。

核心方法

论文提出的新框架包含两个核心模块：深度初始化和基于扩散的深度细化。整个流程分为单阶段细化的 DiffMVS 和级联细化的 CasDiffMVS。

深度初始化

与许多 MVS 方法类似，该框架首先在一个较低的分辨率（例如1/8）下生成一个初始的粗略深度图。这一步通过构建一个轻量级的 3D 代价体（Cost Volume），并使用一个 3D U-Net 进行正则化来完成，为后续的细化提供一个起点。

基于扩散的深度细化

这是本文最核心的创新。作者将深度图的细化过程建模为一个 条件扩散过程。它不是从纯噪声开始，而是从一个带噪声的粗略深度图出发，通过迭代去噪来预测深度残差，从而逐步逼近真实的深度值。

为了实现高效且准确的细化，作者设计了三个关键组件：

1. 条件编码器（Condition Encoder）

为了让扩散模型理解几何信息，作者设计了一个条件编码器。它融合了三种关键信息作为引导扩散过程的条件：

几何匹配信息： 从局部代价体中提取。
深度上下文特征： 从当前的深度假设中提取。
图像上下文特征： 从参考图像中提取，提供场景的语义信息。

通过这种方式，扩散模型不仅能感知局部像素的匹配程度，还能利用长距离的上下文信息，从而在弱纹理或遮挡区域做出更鲁棒的估计。

2. 轻量级扩散网络

传统的扩散模型通常使用庞大的 U-Net 结构，计算成本高。为了提高效率，作者提出了一个新颖的扩散网络，它巧妙地将一个轻量级的 2D U-Net 与 卷积门控循环单元（Convolutional GRU, ConvGRU） 结合起来。ConvGRU 能够以迭代的方式更新隐藏状态，有效捕捉时序（在本文中是迭代细化步骤）信息，从而在单个扩散时间步内实现多次细化更新。这种设计既提升了性能，又避免了堆叠多个大型 U-Net 带来的高昂计算开销。