全线超越SOTA!点云3D目标检测新利器:VDM即插即用让精度更稳更高!

3D视觉工坊 2025-09-14 00:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

0. 这篇文章干了啥?

这篇文章提出了一种用于点云3D目标检测的统一体素扩散模块(Voxel Diffusion Module,VDM),旨在增强基于Transformer和状态空间模型(SSMs)的点云目标检测模型的性能。当前基于Transformer和SSMs的点云目标检测模型在处理体素序列时,输入输出维度需保持一致,限制了卷积操作通常具备的空间扩散能力,影响检测精度。受基于CNN的目标检测架构启发,VDM由稀疏3D卷积、子流形稀疏卷积和残差连接组成,输出特征图下采样至原始输入分辨率的四分之一,具有扩散前景体素特征以丰富空间上下文、聚合细粒度空间信息以加强体素级特征表示两大主要功能。该模块可无缝集成到主流基于Transformer或SSM的检测模型中,用于准确的目标分类和定位。研究人员在多个基准数据集上将VDM嵌入基于Transformer和SSM的模型进行评估,实验结果表明,该方法持续提升了基线模型的检测精度,如VDM - SSMs在Waymo上达到74.7 mAPH(L2)、在nuScenes上达到72.9 NDS、在Argoverse 2上达到42.3 mAP、在ONCE上达到67.6 mAP,在所有数据集上均创造了新的最优性能。消融实验进一步验证了体素扩散和细粒度特征聚合对提升检测性能的重要作用。

下面一起来阅读一下这项工作~

1. 论文信息

  • 论文题目:A Unified Voxel Diffusion Module for Point Cloud 3D Object Detection
  • 作者:Qifeng Liu, Dawei Zhao, Yabo Dong, Linzhi Shang, Liang Xiao, Juan Wang, Kunlong Zhao, Dongming Lu, Qi Zhu
  • 作者机构:未提及
  • 论文链接:https://arxiv.org/pdf/2508.16069

2. 摘要

近年来,点云目标检测领域越来越多地采用基于Transformer和状态空间模型(SSMs)的方法,并展现出了强大的性能。然而,这些模型中的基于体素的表示由于其序列化处理,要求输入和输出维度严格一致,这限制了通常由卷积操作提供的空间扩散能力。这一限制显著影响了检测精度。受基于卷积神经网络(CNN)的目标检测架构的启发,我们提出了一种新颖的体素扩散模块(VDM),以增强点云数据中的体素级表示和扩散能力。VDM由稀疏三维卷积、子流形稀疏卷积和残差连接组成。为确保计算效率,输出特征图被下采样至原始输入分辨率的四分之一。VDM主要有两个功能:

  1. 通过稀疏三维卷积扩散前景体素特征,以丰富空间上下文信息;
  2. 聚合细粒度的空间信息,以加强逐体素的特征表示。

VDM生成的增强体素特征可以无缝集成到主流的基于Transformer或SSM的检测模型中,用于准确的目标分类和定位,凸显了我们方法的通用性。我们通过将VDM嵌入到基于Transformer和基于SSM的模型中,在多个基准数据集上对其进行了评估。实验结果表明,我们的方法相较于基线模型持续提高了检测精度。具体而言,基于VDM的SSM模型在Waymo数据集上实现了74.7的平均精度均值加权航向精度(mAPH,L2),在nuScenes数据集上达到了72.9的nuScenes检测分数(NDS),在Argoverse 2数据集上取得了42.3的平均精度均值(mAP),在ONCE数据集上获得了67.6的mAP,在所有数据集上都创造了新的最优性能。我们的代码将公开提供。

3. 效果展示

不同模型在各类数据集上的性能对比 红色高亮的数值表明我们提出的模型取得了当前最优(state-of-the-art)结果。

资讯配图

4. 主要贡献

  • 我们提出了VDM,一种体素扩散模块,通过3D卷积增强原始体素输入的表示,显著丰富前景体素特征并提高检测精度。
  • VDM利用稀疏3D卷积和残差网络聚合体素邻域的空间特征,为下游序列建模提供更丰富的位置线索。
  • VDM是一个通用模块,能很好地与基于Transformer和基于SSM的3D检测器集成,持续提升模型性能。推荐课程:面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
  • 我们通过在多个公共数据集上的实验验证了VDM的有效性,其中VDM - SSMs取得了最优结果,VDM也改进了基于Transformer的模型。

5. 基本原理是啥?

提出新型体素扩散模块(VDM)的动机

基于点云的3D目标检测中,基于Transformer和状态空间模型(SSMs)的方法在处理体素序列时,输入输出维度需一致,限制了类似卷积操作的空间扩散能力,影响检测精度。受基于CNN的目标检测架构启发,提出Voxel Diffusion Module(VDM),用于增强点云数据的体素级表示和扩散。

VDM的结构与原理

  • 结构组成:VDM由堆叠的稀疏3D卷积和残差块组成,具体包括子流形3D卷积(SubM3D)、稀疏残差块(SRB - 3D)和稀疏3D卷积(SPConv - 3D),输出特征图在高度和宽度上降采样为输入分辨率的四分之一,以减少后续模型的计算负担。
  • 体素扩散:引入核大小为3的稀疏3D卷积,对输入体素网格进行扩散,增加信息体素的空间分布,使后续基于Transformer或SSMs的模块能获取更全面的前景点特征,提高目标检测精度。
  • 细粒度特征聚合:将体素网格进一步细分,利用SubM3D和SRB的强空间感知能力,从细分区域提取细粒度体素特征。采用步长为2的稀疏卷积,一方面将特征图分辨率降低一半,控制计算成本;另一方面聚合局部细粒度特征,为下游模块提供更丰富的空间上下文。
  • 功能公式总结
    • 前景体素扩散公式:,其中是初始特征图中的前景体素数量,是VDM处理后的前景体素数量,表示稀疏卷积。
    • 局部体素聚合公式:是初始体素特征图,是局部体素聚合后的特征图,宽度和高度降为原始大小的四分之一,表示子流形稀疏卷积。

与SSMs和Transformer模块的集成

VDM模块可与基于Mamba和基于Transformer的模型集成。将VDM处理后的3D特征图沿x和y方向序列化,通过有效扩散稀疏体素和聚合细粒度点云体素特征,进一步提高整体模型的检测精度。

资讯配图
资讯配图
资讯配图

6. 实验结果

文章设计了基于LION的VDM - SSMs和基于DSVT的VDM - Transformer两个模型,在四个基准数据集上评估其性能,具体实验结果如下:

Waymo Open Dataset(WOD)

  • 性能提升显著:VDM - Mamba取得74.8 mAPH (L2)的SOTA结果,比无VDM的LION模型高0.7 mAPH,也超越了近期的UniMamba;VDM - DSVT相比原始DSVT,mAPH (L2)提升1.2,验证了VDM对SSM和Transformer模型的通用性。
  • 不同类别表现:仅保留扩散机制的VDM - OD - Mamba在车辆和自行车类别上取得最佳结果;VDM - Mamba在行人类别上性能最佳,表明VDM的细粒度聚合能力对小物体检测有益。

nuScenes Dataset

  • 总体性能:VDM - mamba在验证集上mAP为68.1、NDS为72.5,测试集上mAP为70.0、NDS为73.7。虽整体检测精度略逊于UniMamba,但在行人及自行车类别上表现最佳,显示出对小易损物体检测的优势。
  • 特殊结构优势:VDM - OD - Mamba的NDS达72.9,证明仅扩散结构对提升检测性能至关重要。

Argoverse 2 Dataset

  • SOTA表现:VDM - Mamba和VDM - OD - Mamba分别达到42.3 mAP和42.6 mAP的SOTA检测性能,相比LION,VDM - Mamba有0.8 mAP的显著提升。
  • 扩散机制有效:仅保留扩散结构的VDM - OD - Mamba超越所有先前方法,证明扩散机制有效,体现了VDM在大规模点云场景中的强大表征能力和可扩展性。

ONCE Dataset

  • 各类别精度:VDM - Mamba在车辆、行人、自行车类别上的检测精度分别为78.6 mAP、54.2 mAP、69.9 mAP,整体检测精度达67.6 mAP,比基于Mamba的LION检测器高1.0 mAP,成为该基准的新SOTA。

消融实验

  • 体素扩散贡献大:在Waymo验证集上,引入体素扩散使VDM - OD模型的mAPH (L2)提升1.3,在nuScenes和Argoverse 2数据集的仅扩散设置下,模型检测精度更高,验证了体素扩散的重要影响。
  • 细粒度特征聚合有效:在ONCE数据集上,结合细粒度特征聚合后,模型mAP提升1.5;在Waymo 20%验证集上,VDM模型对自行车类别的检测精度更高,表明更精细的体素划分能增强检测性能。
资讯配图
资讯配图

7. 总结 & 未来工作

我们提出了体素扩散模块(VDM),它由稀疏3D卷积网络、稀疏残差块和子流形稀疏卷积(SubM3D)组成。该模块通过稀疏3D卷积对体素化的点云进行扩散,以增加前景体素的密度,从而实现更精确的目标定位,同时对体素特征进行空间预聚合,为后续的序列化体素序列提供空间上下文。为验证我们方法的有效性,我们评估了两种模型变体:基于Mamba的VDM - LION和基于Transformer的VDM - DSVT。实验结果表明,VDM在基于SSMs和基于Transformer的架构中均能持续提升性能。值得注意的是,基于SSMs的VDM - LION在Waymo、Argoverse 2和ONCE数据集上取得了最先进的结果。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉1V1论文辅导来啦!

资讯配图

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

3D视觉全栈学习课程:www.3dcver.com

资讯配图

3D视觉交流群成立啦,微信:cv3d001

资讯配图

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
检测
more
AirPods Pro 3上架?外观大变样!还能检测心率...
北京市丰台区方庄芳星园-智能交通检测维护机器人项目可行性研究报告
CNAS | 已获认可检测和校准实验室,这场技术培训期待您的参与
一图读懂丨2025年第二季度检验检测行业景气指数
美国突袭中国检测实验室!撤销多家中资机构资质
2025年中国纺织品检测行业市场深度分析报告-华经产业研究院
0.3秒极快推理!精度暴虐SAM30!OpenM3D打造开放词汇3D检测新SOTA!
Environ Sci Nano: 基于铅铁氧体的电化学传感器检测阿莫西林
曝AirPods Pro 3支持体温检测/纸质火车票将退出历史舞台?12306回应/DeepSeek发文,多平台上线AI标识
广州计量院与中山市质量计量监督检测所开展技术交流
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号