精度提升 20%!自监督 × 4D 雷达,SOTA 动态驾驶场景重建4DRadar-GS来了!

3D视觉工坊 2025-10-04 00:00
精度提升 20%!自监督 × 4D 雷达,SOTA 动态驾驶场景重建4DRadar-GS来了!图1

0.这篇文章干了啥?

这篇文章提出了 4DRadar-GS,一种基于 4D 雷达的自监督动态驾驶场景重建框架,旨在解决现有方法在动态对象重建中存在的运动估计不准确和时间一致性弱的问题。3D 重建和新视角合成对验证自动驾驶系统和训练高级感知模型至关重要,现有自监督方法虽有成本效益和泛化性优势,但难以准确重建动态对象。4DRadar-GS 通过两阶段管道重建动态驾驶场景,首先提出 4D 雷达辅助的高斯初始化方案,利用 4D 雷达的速度和空间信息分割动态对象并恢复单目深度尺度,生成准确的高斯点表示;接着提出速度引导的点跟踪(VGPT)模型,在场景流监督下与重建管道联合训练,跟踪细粒度动态轨迹并构建时间一致的表示。此外,为缓解过拟合问题,设计了高斯随机丢弃正则化技术。实验在 OmniHD-Scenes 数据集上进行,结果表明 4DRadar-GS 在动态驾驶场景 3D 重建中达到了当前最优性能。

下面一起来阅读一下这项工作~

1. 论文信息

  • 论文题目:4DRadar-GS: Self-Supervised Dynamic Driving Scene Reconstruction with 4D Radar
  • 作者:Xiao Tang, Guirong Zhuo, Cong Wang, Boyuan Zheng, Minqing Huang, Lianqing Zheng, Long Chen, Shouyi Lu
  • 作者机构:School of Automotive Studies, Tongji University, Shanghai, China;State Key Laboratory of Multimodal Artificial Intelligence Systems, Institute of Automation, Chinese Academy of Sciences
  • 论文链接:https://arxiv.org/pdf/2509.12931

2. 摘要

三维重建和新视角合成对于验证自动驾驶系统和训练先进感知模型至关重要。近期的自监督方法因其成本效益高以及在无标注边界框的场景中具有更强的泛化能力而备受关注。然而,现有的方法通常依赖频域解耦或光流,由于运动估计不准确和时间一致性较差,难以准确重建动态物体,导致动态场景元素的表示不完整或失真。为应对这些挑战,我们提出了 4DRadar-GS,这是一种专为动态驾驶场景量身定制的、由 4D 雷达增强的自监督三维重建框架。具体而言,我们首先提出了一种 4D 雷达辅助的高斯初始化方案,该方案利用 4D 雷达的速度和空间信息对动态物体进行分割,并恢复单目深度尺度,从而生成准确的高斯点表示。此外,我们还提出了一种速度引导的点跟踪(VGPT)模型,该模型在场景流监督下与重建管道联合训练,用于跟踪细粒度的动态轨迹并构建时间一致的表示。在 OmniHD-Scenes 数据集上的评估表明,4DRadar-GS 在动态驾驶场景的三维重建中达到了当前的最优性能。

3. 效果展示

定性比较新视图合成的效果。红色方框突出了动态车辆的重建质量。先前的方法存在严重伪影,如运动模糊和重影,而我们的方法生成的重建图像清晰连贯,与真实情况高度一致。

4. 主要贡献

  • 提出了一种新颖的自监督重建框架,首次系统地利用 4D 雷达进行准确的动态解耦和尺度恢复,从而为动态驾驶场景实现稳健的初始化。
  • 引入了 VGPT 模型,通过结合光流和 4D 雷达径向速度的直接物理约束的双重监督方案进行训练,为动态目标建立稳健的时间对应关系。
  • 设计了一种正则化方法,以减轻对训练视角过拟合的问题。
  • 所提方法在 OmniHD-Scenes 数据集上达到了最先进的性能,该数据集因包含重要的 4D 雷达数据而被选用。

5. 基本原理是啥?

4D 雷达辅助的高斯初始化

  • 4D 雷达-相机动态分割模型:利用 4D 雷达提供的速度信息,提出 4D 雷达辅助初始化方案,无需标注边界框信息即可高效识别动态对象。通过融合单张 RGB 图像和对应的 4D 雷达点云,估计并补偿自车运动,从动态点中随机采样作为锚点,投影到图像平面并提取图像块,用 ResNet 骨干网络提取多尺度图像特征,对 4D 雷达点特征进行均值池化和全连接层处理,与图像特征通过自注意力和交叉注意力模块深度融合,最后用 U-Net 风格解码器生成高分辨率动态概率图,得到最终动态掩码。
  • 单目深度估计和尺度恢复:单目深度估计算法缺乏真实物理尺度,利用 4D 雷达进行尺度恢复。将单帧深度图反投影得到的视觉 3D 点云和经过自车运动补偿后的静态 4D 雷达点云投影到单位球面上,构建 KD 树搜索每个 4D 雷达点在球面上的三个最近视觉邻居,用几何约束估计尺度因子,同时引入两个约束确保估计有效性,排除动态 4D 雷达点,最后用基于直方图的投票方法确定全局最优尺度。

3DGS 和 VGPT 的联合训练框架

  • 变形场建模:引入时间相关的变形场,将所有时间戳的点云映射到公共空间,初始化一组规范高斯基元。该变形场由可逆多层感知器网络实现,以 3D 坐标点和归一化时间戳为输入预测点的新位置,其正向变形和逆变形可从单次前向传播中解析得出,所有时间戳共享一组 MLP 权重以确保时间连续性。
  • 变形场监督:使用两种互补的监督信号优化变形场。一是基于光流的 3D 场景流监督,通过预训练的光流模型估计两帧图像间的 2D 光流场,结合单目深度估计网络提供的深度信息,将 2D 对应关系提升为 3D 对应关系,生成伪真实 3D 场景流,用几何一致性损失优化变形场;二是基于 4D 雷达径向速度的直接物理约束,通过 K 近邻算法将分割的动态高斯与 4D 雷达点关联,根据 4D 雷达测量的径向相对速度,建立径向位移损失直接监督变形场生成的流向量的径向分量。

训练和优化策略

  • 高斯丢弃正则化:为缓解 4D 雷达融合深度尺度不一致导致的高斯遮挡问题,引入高斯丢弃正则化方法。在每次训练迭代中,以一定概率随机将一部分高斯基元的不透明度设为零,打破既定的遮挡模式,使原本被遮挡的高斯在稀疏视图条件下得到监督,减轻对特定训练视图的过拟合,增强新视图合成的几何一致性。
  • 三阶段训练策略:第一阶段训练静态背景的高斯网络和动态对象的变形场;第二阶段冻结静态模型参数,联合训练动态高斯和变形场;第三阶段进行全局微调,对静态高斯、动态高斯和变形场进行端到端联合优化。
  • 总损失:总训练损失函数由多项损失组成,包括渲染图像的 L1 和 SSIM 损失、基于尺度恢复深度图监督的逆深度监督损失、使渲染动态对象掩码与前景掩码对齐的掩码约束损失以及天空区域的交叉熵损失,各项损失由超参数加权。

6. 实验结果

本文提出了一种名为 4DRadar-GS 的 4D 雷达增强的自监督 3D 重建框架,用于动态驾驶场景重建。实验围绕该框架在 OmniHD-Scenes 数据集上展开,以评估其性能,具体结果如下:

与重建模型对比

  • 自监督类别:在图像重建和新视图合成任务的所有渲染指标上,4DRadar-GS 达到了 SOTA 性能。定性比较显示,先前方法(如 PVG、DeSiRe-GS、AD-GS)在动态车辆上存在严重重影、伪影、运动模糊和噪声问题,而 4DRadar-GS 生成的动态场景清晰连贯,视觉质量显著优于现有自监督模型。
  • 与有监督方法对比:4DRadar-GS 在不依赖任何手动 3D 标签的情况下,取得了与依赖额外边界框注释的有监督方法(如 StreetGS、OmniRe)具有竞争力的结果,性能与 StreetGS 相当,接近 OmniRe。

与分割模型对比

与仅基于视觉的方法(如 Grounded-SAM2)相比,4DRadar-GS 的分割方法对显著的自我运动表现出更强的鲁棒性。大的相机位移会使 Grounded-SAM2 误分类静态车辆,导致过分割,而 4DRadar-GS 利用 4D 雷达的物理速度先验,成功分离出真正移动的车辆,更准确地解析动态场景,定量结果验证了其准确性的提高。

消融研究

  • 高斯损失消融:逐步添加组合的对象和天空掩码损失、深度监督损失和高斯丢弃正则化组件,每个组件都有独特作用。掩码损失的 2D 监督有助于清晰分离对象和背景高斯;深度损失的 3D 几何约束增强了结构重建的准确性;高斯丢弃正则化通过抑制伪影和确保跨视图一致性,提高了几何鲁棒性。
  • VGPT 损失消融:在没有 VGPT 模型时,模型无法处理对象运动,出现极端运动模糊。仅使用基于光流的损失进行跟踪网络监督,虽减少了模糊并恢复了车辆大致形状,但仍存在重影伪影和细节不足问题。仅使用基于 4D 雷达的径向位移损失,不足以约束复杂 3D 运动,导致严重几何失真和不可解释的重建。结合两种监督信号,模型充分利用光流的密集 2D 引导和 4D 雷达的精确物理约束,生成清晰、连贯且无伪影的重建结果。
  • 动态关联消融:与 PVG 和 AD-GS 的关联策略相比,PVG 依赖周期性振动模型,易出现对应错误,引入动态伪影;AD-GS 采用 B 样条强制执行关键点轨迹的时间平滑性,虽减轻了关联失败问题,但强平滑先验阻碍了对微妙动态的精确捕捉,导致最终重建丢失精细细节。
  • 传感器消融:在 PVG 框架内比较 4D 雷达和 LiDAR 作为初始化数据源的性能差异,结果表明基于 4D 雷达的初始化与更密集的 LiDAR 点云达到了相当的精度。

7. 总结 & 未来工作

本文提出了一种名为 4DRadar-GS 的自监督 3D 重建框架,用于动态驾驶场景的重建。主要贡献包括:提出了一种新颖的自监督重建框架,首次系统地利用 4D 雷达进行准确的动态解耦和尺度恢复,实现了动态驾驶场景的稳健初始化;引入了 VGPT 模型,通过结合光流和 4D 雷达径向速度的直接物理约束的双重监督方案,为动态物体建立了稳健的时间对应关系;设计了一种正则化方法来缓解对训练视角的过拟合问题。该方法在 OmniHD-Scenes 数据集上取得了最优性能。

精度提升 20%!自监督 × 4D 雷达,SOTA 动态驾驶场景重建4DRadar-GS来了!图2

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR
more
PhyArc系列摆线关节全新升级,正式发售!
IROS 2025 Startup Forum创业者与投资人西湖论剑,报名启动!
2025上半年XR市场:AR逆势狂飙50%,产业链企业协同突围
【Open Car】喝的
精度提升 20%!自监督 × 4D 雷达,SOTA 动态驾驶场景重建4DRadar-GS来了!
攻克高速着陆瓶颈!加拿大团队提出DART无人机系统,实现100km/h移动平台着陆成功率超80%!
Arduino被收购,天堂还是地狱?
【投融资】Benchmark破例投资:AI搜索Exa获8500万美元B轮融资,估值7亿美元
AR眼镜光波导工艺路线,纳米压印仍“稳坐C位”
前沿 | Paradromics:为脑机接口设定新标准和新纪录
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号