工业质检神器！多视图重建框架MVR性能碾压SOTA，点级精度高达95.7%！

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) ！星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

这篇文章提出了一种用于三维异常检测的多视图重建（MVR）方法，旨在解决现有方法在高精度3D异常检测中因全局信息不足导致性能下降的问题。3D异常检测在工业质量检测中至关重要，但现有方法存在特征学习能力有限和全局上下文信息利用不充分的局限性。MVR方法首先将高分辨率点云无损转换为多视图图像，然后采用基于重建的异常检测框架来增强全局信息学习。该方法包含多视图投影架构和分层重建网络两个主要组件，通过多视图投影将不规则点云转换为结构化深度图表示，分层重建网络对投影后的深度图进行特征嵌入和重建处理，并将多视图特征通过逆投影映射回原始点云空间。在训练过程中，采用硬挖掘全局余弦损失。实验在Real3D - AD基准数据集上进行，MVR方法实现了89.6%的对象级AU - ROC和95.7%的点级AU - ROC，显著优于现有方法。此外，消融实验研究了渲染分辨率、渲染视图数量和骨干网络对性能的影响，结果表明高分辨率渲染结合降采样可提高特征表示能力，增加视图数量能提升检测性能，且较大的网络容量有助于学习更通用的表示和捕捉细微异常特征。该方法为3D异常检测建立了高效且稳健的新范式，具有重要的实际应用价值。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：Multi-View Reconstruction with Global Context for 3D Anomaly Detection
作者：Yihan Sun, Yuqi Cheng, Yunkang Cao, Yuxin Zhang, Weiming Shen
作者机构：State Key Laboratory of Intelligent Manufacturing Equipment and Technology, Huazhong University of Science and Technology, Wuhan 430074, China
论文链接：https://arxiv.org/pdf/2507.21555v1

2. 摘要

三维异常检测在工业质量检测中至关重要。尽管现有方法取得了显著进展，但由于全局信息不足，它们在高精度三维异常检测中的性能有所下降。为解决这一问题，我们提出了多视图重建（MVR）方法，该方法将高分辨率点云无损转换为多视图图像，并采用基于重建的异常检测框架来加强全局信息学习。大量实验证明了MVR的有效性，在Real3D - AD基准测试中，物体级别的曲线下面积（AU - ROC）达到89.6%，点级别的AU - ROC达到95.7%。代码可在以下链接获取：https://github.com/hustSYH/MVR。

3. 效果展示

使用该方法对 Real3D-AD 上的预测结果进行可视化。资讯配图

4. 主要贡献

文章的主要贡献总结如下：

提出多视图重建（MVR）方法，将高分辨率点云无损转换为多视图图像，采用基于重建的异常检测框架，增强全局信息学习。
设计了多视图投影架构和分层重建网络，系统处理投影深度图，实现跨视图特征协调，将多视图特征转换回原始点云空间，构建融合点云特征表示以进行模型训练和异常检测。
采用高分辨率投影策略，解决渲染伪影和质量下降问题，在训练中采用重建驱动框架，强制实施隐式全局约束，促进学习全局连贯的语义表示。
在高分辨率Real3D - AD基准上进行大量实验，MVR方法取得了89.6%的对象级AU - ROC和95.7%的点级AU - ROC，显著优于现有最先进的方法。

5. 基本原理是啥？

问题提出与方法核心思路

现有的3D异常检测方法在高精度检测中由于全局信息不足导致性能下降。提出的多视图重建（MVR）方法将高分辨率点云无损转换为多视图图像，并采用基于重建的异常检测框架来增强全局信息学习。

问题定义

给定输入点云，3D异常检测的目标是学习一个映射函数，为对象分配对象级异常分数和点级异常分数，构建点级异常图，越高表示属于异常区域的概率越高。模型通常仅在正常样本上训练，在包含正常和异常样本的上测试。

MVR方法框架

多视图投影架构：将不规则点云转换为结构化深度图表示。通过将输入点云投影到多个预定义视点，生成一组2D视图图像，利用不同的旋转矩阵进行顺序刚性变换以增强数据表征的完整性。投影关系为
同时定义了从图像像素到点云中点的映射，即
该函数用于后续特征集成过程中对齐点的特征。
分层重建网络：

多尺度编码器：用于特征抽象，利用预训练的Vision Transformers（ViT）的自注意力机制提取全局特征，通过预训练的ViT编码器（包含12个Transformer层）得到每个深度图的编码特征表示，并提取中间层特征图构成第个视图的教师特征集。
潜在空间瓶颈：是一个MLP，收集编码器个中间层的特征表示。
多阶段解码器：与编码器类似，由个Transformer层组成，能在从潜在变量重建时自动调整大小变化并补充全局特征，重建学生特征图。然后对不同Transformer层的点级特征图进行平均池化聚合，得到和。

多视图特征融合

通过函数将2D特征图中的点特征映射回点云空间，得到点在第个深度图像上的点特征和。然后对多视图深度图像的点特征进行聚合，得到和，简化表示为，并利用进行异常检测。

训练过程

采用硬挖掘全局余弦损失，该损失分离余弦距离低的恢复良好的特征点的梯度。损失函数，其中
。

3D异常检测

在测试阶段，对测试点云提取2D模态特征，然后通过余弦相似度计算异常分数，对象级异常分数。

6. 实验结果

文章围绕多视图重建（MVR）方法在3D异常检测中的应用展开实验，评估了该方法的有效性和性能，具体实验结果如下：

与SOTA方法对比

O - ROC指标：PointCore在现有方法中平均性能最佳，但O - ROC为82.9%仍欠佳。MVR方法达到89.6%的O - ROC，显著高于所有基线方法，在十二个类别中的八个类别中领先，其余两个类别排名第二。
P - ROC指标：MVR方法较CPMF在各测试场景下有显著提升，平均P - ROC达到95.7%，比CPMF基线（75.9%）高出19.4个百分点，在十一个类别中取得最高分。

消融实验

渲染分辨率的影响

性能变化：随着分辨率从提升到，O - ROC显著提高3.6%，在达到峰值（89.3%），随后在降至86.4%；P - ROC在分辨率间有适度波动（累计增益2.5%）后下降。
原因分析：低分辨率渲染会因点云采集噪声导致特征失真和误分类；高分辨率渲染能捕捉精细几何细节，减轻混叠和量化误差，后续下采样可平滑高频噪声。但对于稀疏点云，高分辨率生成的深度图会出现区域数据空洞，下采样时引入噪声干扰，降低性能。

渲染视图数量的影响

性能变化：随着视图数量增加，O - ROC和P - ROC指标有适度且持续的提升。O - ROC在约15个视图时达到峰值，P - ROC在约21个视图时达到最高值。时的性能相比有显著提升，MVR框架仅以三个深度视图作为输入就能取得较好的检测性能。
原因分析：实验指标的波动主要归因于特定视角包含低质量特征，导致不同视角的特征表示不一致，造成潜在空间内的特征分布不匹配，降低异常检测模型的判别能力。推荐课程：国内首个3D缺陷检测实战教程。