华科&浙大提出深度估计新范式，实现「像素级完美」深度感知

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

论文信息

论文题目: Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers
Project Page: https://pixel-perfect-depth.github.io/
Github Code: https://github.com/gangweix/pixel-perfect-depth
Huggingface Demo: https://huggingface.co/spaces/gangweix/Pixel-Perfect-Depth

研究动机与贡献

深度估计是机器人感知、三维重建、AR/VR 等应用的核心。然而，现有的深度估计方法普通存在边缘飞点（Flying Pixels）问题，而这会导致机器人执行决策时候，引发错误动作；三维重建时导致物体轮廓鬼影重重等。现有方法经历边缘飞点主要因为以下原因：

判别式模型（如 Depth Anything v2, Depth Pro）由于回归损失的平滑倾向，容易在深度突变处产生平均化预测，导致边缘飞点；
生成式模型（如 Marigold, Lotus）虽然能通过像素分布建模保留更多细节，但依赖 Stable Diffusion 的 VAE 压缩，仍会损失结构锐度与几何保真度，产生大量飞点。

💡 我们的创新：Pixel-Perfect Depth (PPD)

我们提出 Pixel-Perfect Depth (PPD)，一种在像素空间直接进行扩散的深度估计模型，从根本上消除了由VAE压缩引起的退化伪影。然而，直接在高分辨率像素空间中进行扩散建模极具挑战：模型需要同时保持 全局语义一致性 与 局部细节精确性，否则容易出现结构混乱与深度不稳定的问题。

🧠 核心设计：Semantics-Prompted DiT

我们提出 语义提示扩散 Transformer（SP-DiT），在扩散过程中引入视觉基础模型的高层语义特征作为 语义提示（Semantic Prompting），显著增强模型在全局语义一致性方面与细节结构的建模能力。同时，我们提出一种语义正则化策略，使语义特征与DiT内部特征自然对齐，从而实现稳定收敛。

📈 结果与影响

在五个公开基准上全面超越现有生成式深度估计模型；
在边缘点云评估中显著领先；
输出的深度图几乎无“飞点”，3D重建边缘锐利、几何稳定。

方法概述

🔹生成建模（Generative Formulation）

我们采用 Flow Matching作为深度估计框架的生成核心。Flow Matching通过一阶常微分方程（ODE）学习从高斯噪声到数据样本的连续变换。在我们的任务中，该过程建模从高斯噪声到深度样本的映射。具体来说，给定一个干净的深度样本和高斯噪声，在连续时间上定义插值样本为：

对应的速度场定义为：

它描述了从干净样本到噪声的方向。我们的模型学习预测该速度场，输入包括当前带噪样本、时间步以及输入图像。其训练目标为预测速度与真实速度之间的均方误差（MSE）：

在推理阶段，我们从噪声开始，将时间区间离散为若干步，通过以下方式迭代求解 ODE：

其中从 1 递减至 0，逐步将初始噪声转换为最终深度样本。

🔹Semantics-Prompted Diffusion Transformers

我们基于DiT构建 **Semantics-Prompted DiT (SP-DiT)**，其优势在于结构简单、可扩展性强，并在生成建模中表现优异。与Depth Anything v2、Marigold等模型不同，我们的架构完全基于Transformer，无任何卷积层。通过融合高层语义表征，SP-DiT 能在保持 全局语义一致性 的同时增强 细粒度视觉细节。

给定插值噪声样本与输入图像，我们首先将两者拼接为单一输入：

其中作为条件输入。随后，将送入DiT。DiT的首层为patchify操作，将空间输入划分为的小块，并线性嵌入为长度为、维度为的1D token序列。之后，这些 token 经 Transformer 块（DiT blocks）处理。最终每个 token 被线性投影为一个的张量，并重塑回空间分辨率，得到预测的速度场（即），其通道维为 1。直接在像素空间执行扩散容易导致收敛不稳定和预测误差大。因此，我们从输入图像提取高层语义特征作为指导：

其中和分别为语义特征的 token 数与维度。这些特征随后被引入 DiT 中以保持语义一致性。为解决语义特征与 DiT token 特征不对齐问题差异，我们使用L2归一化：

然后通过多层感知机（MLP）层融合：

其中表示双线性插值操作，用于匹配语义特征与 DiT token 的空间分辨率。
融合后的为语义增强后的 token，后续的 DiT 模块在语义提示下生成全局结构一致、细节丰富的深度结果。

我们在DINOv2、VGGT、MAE、Depth Anything v2等预训练视觉基础模型上进行了实验，结果表明这些语义特征能显著提升性能与稳定性。

🔹 级联DiT设计（Cascade DiT Design）

尽管 SP-DiT 显著提升了精度，但像素空间扩散计算量仍较大。为此，我们提出 级联 DiT 设计（Cascade DiT Design） 以提升效率。观察发现，DiT 的前半部分主要建模全局结构与低频信息，后半部分聚焦高频细节。因此我们采用由粗到细（coarse-to-fine）的设计：

前个块（Coarse Stage）使用较大 patch 尺度，减少 token 数以更好建模全局结构；
后个块（Fine Stage，即 SP-DiT）使用较小 patch 尺度，以捕获细节。

这种分阶段的层次化结构既能降低计算成本，又能兼顾语义一致性与局部几何精度。

实验结果

一流的零样本泛化能力

为验证模型的零样本泛化性能，我们在五个真实场景数据集上，与近期的深度估计方法进行了比较。结果显示，我们的模型在所有评估指标上均超越了现有的生成式深度估计模型。与以往依赖 Stable Diffusion 预训练图像先验的生成式方法不同，我们的扩散模型完全从零开始训练（无任何图像先验），但仍取得了显著的性能优势。

我们的模型在仅使用合成深度数据集训练的情况下，依然能很好地泛化到真实世界的多种场景。从视觉对比可见，我们的模型比 Depth Anything v2 与 MoGe 2 更好地保留了细节结构。同时，在纹理复杂、背景杂乱或包含大面积天空的困难区域，我们的方法在鲁棒性上也显著优于判别式模型 Depth Pro。

模块级消融分析

我们以基础模型 DiT（vanilla DiT） 作为基线，对所提出的模块进行了逐步消融实验。直接在高分辨率的像素空间中执行扩散生成极具挑战性，由于计算代价高昂且优化困难，性能显著下降。如图所示，基线模型在保持全局语义一致性和生成细粒度视觉细节方面表现不佳。

相比之下，我们提出的 Semantics-Prompted DiT 有效应对了这些挑战，在多个指标上显著提升了精度，例如在 NYUv2 数据集上的AbsRel 指标提升 78%。

此外，我们进一步引入了一种新的 级联式 DiT 设计（Cascaded DiT, Cas-DiT），其通过逐步增加 token 数量，实现由粗到细的生成策略。这种设计不仅显著提升了效率（例如在 RTX 4090 上推理时间减少 **30%**），同时还能更好地建模全局结构，从而获得更高的精度表现。

💡 Cas-DiT 实现了从低分辨率粗估计到高分辨率细化的逐步生成流程，在计算效率与视觉质量之间取得了平衡。

边缘点云评估

我们的目标是生成像素级完美（Pixel-Perfect）的深度图，从而得到边界干净、无“飞点”（Flying Pixels）的点云。然而，现有的评测基准和指标往往难以有效反映物体边缘的“飞点”问题。例如：

NYUv2 与 KITTI 数据集缺乏明确的边缘标注；
常用指标如 AbsRel 与 δ₁ 更偏向平坦区域，难以反映边缘深度误差。

为解决这一问题，我们在 Hypersim 数据集的官方测试划分上进行了评估。该数据集提供高质量的点云，并未被用于训练。我们进一步提出了一种 边缘感知点云指标（Edge-Aware Point Cloud Metric），用于量化边缘区域的深度精度。具体做法如下：

使用 Canny 算子 从真实深度图中提取边缘区域；
在边缘区域内，计算预测点云与真实点云之间的 Chamfer 距离：

实验结果显示，我们的方法在该指标上表现最佳。为进一步验证 VAE 压缩确实导致“飞点”，我们将真实深度图经过 VAE 编码与解码（即 GT(VAE)），在无生成过程的情况下重建后进行比较。结果表明，VAE 压缩本身会引入“飞点”，导致 Chamfer 距离显著增大，而我们的模型则能有效避免此问题。

不同视觉基础模型（VFMs）的消融分析

我们评估了 SP-DiT 在不同视觉基础模型（Vision Foundation Models, VFMs）下的表现，包括: DINOv2、MAE、Depth Anything v2和VGGT等。实验结果表明，无论使用哪种预训练视觉编码器，SP-DiT 的性能均显著提升，验证了其良好的可迁移性与泛化能力。

结论

本文提出了Pixel-Perfect Depth (PPD)，一种基于像素空间扩散（pixel-space diffusion）的单目深度估计模型，能够生成高质量、无“飞点”（Flying Pixels）的点云结果。与以往依赖 VAE 潜空间扩散（latent-space diffusion）的生成式深度模型不同，PPD 直接在像素空间进行扩散建模，从根本上避免了由 VAE 压缩导致的边缘模糊与结构退化问题。

为应对像素空间扩散建模带来的高复杂度与优化困难，我们提出了 语义提示扩散Transformer 与级联式扩散结构。前者通过引入视觉基础模型的语义特征作为提示，显著增强了模型的全局语义一致性；后者采用由粗到细的生成机制，有效提升了效率与稳定性。

在多个公开基准上，PPD 均取得了优异的性能，特别是在边缘点云评估中显著超越现有方法，生成的点云结构锐利、边缘清晰、几乎无飞点伪影。实验结果验证了我们方法在保持全局语义与局部几何一致性方面的有效性，也为基于扩散模型的高保真深度估计提供了新的研究方向。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉硬件，官网：www.3dcver.com

3D视觉学习圈子

3D视觉全栈学习课程：www.3dcver.com

3D视觉交流群成立啦，微信：cv3d001