点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
作者供稿直发 | 编辑:3D视觉工坊
星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎加入!
0. 论文信息
论文标题:AdaptSplat: Adapting Vision Foundation Models for Feed-Forward 3D Gaussian Splatting 作者: Mingwei Xing、Xinliang Wang、Yifeng Shi(通讯作者) 机构: KE Holdings Inc.(贝壳找房) GitHub:https://github.com/xmw666/AdaptSplat Paper:https://arxiv.org/abs/2605.10239
1. 导读:三维重建正在从“逐场景优化”走向“通用模型”
三维重建正在经历一次重要变化。
过去,基于 3D Gaussian Splatting 的方法通常需要针对每一个场景单独优化。面对一个新的房间、一段新的街景或一组新的拍摄图像,模型往往需要重新拟合,才能得到可渲染的三维表示。
Feed-Forward 3DGS 提出了另一种可能:
输入一组多视角图像,通过一次前向推理,直接预测可渲染的 3D Gaussian 表示。
这意味着,三维重建正在从“每个场景都要重新训练”,逐渐走向“运行一个可以泛化的通用模型”。
无论是大规模空间数字化、VR 内容生产,还是自动驾驶场景建模,这条路线都具有很强的吸引力。
但随着越来越多方法进入这条赛道,一个值得重新思考的问题也逐渐浮现:
Feed-Forward 3DGS 的性能提升,是否一定要依赖越来越复杂的结构设计?
这正是 AdaptSplat 想讨论的问题。
AdaptSplat 没有重新设计一套更加庞大的三维重建系统,也没有继续为每一个环节堆叠大量任务特定模块。
它选择了一条更加克制的路线:
保留标准的 Feed-Forward 3DGS 管线,仅额外引入一个约 1.5M 参数的轻量 Adapter,让高频几何信息在整条重建链路的关键环节中更加顺畅地流动起来。
它想证明的是:
真正缺少的未必是更多模块,而是让正确的信息,在正确的位置发挥作用。
2. 当通用管线逐渐形成,下一步还要继续堆模块吗?
尽管已有方法的具体设计各不相同,但主流 Feed-Forward 3DGS 方法大多可以被归纳为一条相似的管线:
图像特征提取 → 多视角交互 → 特征解码
模型首先从输入图像中提取视觉特征,再建立跨视角对应关系,随后逐步恢复空间分辨率,并预测 Gaussian 的位置、透明度、尺度、旋转和颜色等参数。
为了提升重建效果,已有工作通常会围绕不同环节持续增加设计:
更复杂的多视角交互 更强的几何先验 更重的解码器 更加精细的训练策略
这些探索有效推动了 Feed-Forward 3DGS 的发展。
但它们也带来了一个现实问题:
当高质量三维训练数据依然有限时,结构复杂度是否一定能够稳定转化为跨场景泛化能力?
AdaptSplat 并不是否定已有工作,而是尝试提出另一种可能:
当通用框架已经逐渐形成,下一步未必是继续堆叠模块,而可能是重新审视整条链路中真正缺失的信息。
图 1:AdaptSplat 的核心出发点。相比不断为多视角交互和解码器增加复杂设计,AdaptSplat 保留标准管线,通过轻量适配探索更加简洁的 Feed-Forward 3DGS 路线。
3. 真正容易丢失的,是高频几何信息
对于三维重建而言,仅仅“看懂场景”是不够的。
模型不仅需要知道图像中存在桌子、栏杆、玻璃器皿或建筑物,还需要准确判断:
物体边界在哪里 表面沿什么方向延伸 Gaussian 应该如何旋转和拉伸 哪些细小结构必须被保留下来
但深层神经网络天然倾向于平滑信息。
随着特征不断变深,网络会更加关注稳定的低频语义,而锐利边缘、局部纹理和细小结构则容易被削弱。解码器在逐步恢复分辨率时,也可能进一步抹掉这些细节。
对于图像分类而言,这通常不是严重问题。
即使桌子的边缘略微模糊,模型依然可以判断“这是一张桌子”。
但对于 3DGS,情况完全不同。
Gaussian primitive 需要紧密贴合真实表面。边缘方向会直接影响 Gaussian 的尺度和旋转参数。
当边缘信息逐渐模糊,模型面对不确定区域时,容易给出更加“安全”的预测:不同方向上的尺度逐渐接近,原本应该沿着物体表面拉伸的 Gaussian,退化为更加接近球形的 Gaussian。
结果就是:
桌角变钝、栏杆变粗、玻璃器皿粘连,复杂纹理逐渐模糊。
这不是简单的视觉锐度问题,而是 Gaussian primitive 的几何拟合能力受到了限制。
4. AdaptSplat:不是重做网络,而是打通链路
AdaptSplat 保留了一条尽可能简洁的通用主干:
使用 DINOv3-ConvNeXt 提取视觉特征 使用标准 Multi-view Transformer 建立跨视角对应关系 使用标准 DPT Decoder 恢复空间分辨率 使用 Gaussian Heads 预测可渲染的三维表示
在此基础上,论文仅额外引入一个核心模块:
Frequency-Preserving Adapter,简称 FPA。
FPA 约包含 1.5M 参数。
它并不是网络末端的一个小补丁,也不只是用来“激活视觉基础模型”。
更准确地说,FPA 像是一条贯穿关键环节的高频几何通路。
它从浅层特征中提取具有方向感知能力的结构信息,再将这些信息分别注入 Multi-view Transformer 和 DPT Decoder。
在多视角交互阶段,高频信息帮助模型更加准确地判断哪些结构区域值得关注。
在逐级解码阶段,高频信息则帮助模型减少细节损失,更好地保留边缘与局部结构。
与此同时,视觉 backbone 也会参与端到端训练,使预训练表征主动适配多视角三维几何约束。
AdaptSplat 真正建立的是一种联动:
视觉基础模型的通用表征、浅层高频结构、多视角交互与逐级解码,围绕几何细节形成协同,最终改善 Gaussian primitive 的拟合。
图 2:AdaptSplat 整体框架。FPA 从浅层特征中提取高频结构先验,并分别注入 Multi-view Transformer 和 DPT Decoder,使几何细节在关键环节中得到持续保留。
5. 不只是让图像更锐,而是让 Gaussian 拟合得更合理
提到高频信息,读者很容易联想到二维图像锐化。
但 AdaptSplat 的提升并不只停留在“看起来更清楚”。
论文进一步分析了物体边界附近的 Gaussian 分布。
在没有 FPA 时,部分 Gaussian 更接近圆形投影。这意味着不同方向上的尺度差异较小,Gaussian 难以紧密贴合物体表面。
加入 FPA 后,Gaussian 会沿着真实边界方向形成更加明显的各向异性拉伸。
换句话说,FPA 并不是简单地对最终图像进行后处理,而是实际改变了 Gaussian primitive 的几何拟合方式。
图 3:物体边界附近的 Gaussian 分布。没有 FPA 时,Gaussian 更接近圆形投影;加入 FPA 后,Gaussian 会沿着真实边界方向拉伸,从而更加贴合局部几何结构。
论文还使用 Fractional Anisotropy,也就是 FA 指标,对这种变化进行了量化。加入 FPA 后,FA 从 0.8015 提升至 0.8423。
论文中的注意力可视化、频域分析和动态 Mask 可视化也得出了相互印证的结论:
模型更加关注物体轮廓和结构边界 恢复结果的中高频分布更加接近 Ground Truth 解码阶段的动态 Mask 更加聚焦于容易损失细节的位置
这些结果共同说明:
AdaptSplat 改善的不只是渲染图像的锐度,而是模型对复杂表面和锐利边界的三维表达能力。
6. 实验:简洁的设计,也可以带来全面提升
AdaptSplat 在 RE10K、DL3DV、Tanks & Temples、Mip-NeRF360 和 NuScenes 等多个数据集上进行了验证。
在 RE10K 数据集上,给定 6 个输入视角并预测 8 个新视角时,AdaptSplat-base 的 PSNR 达到 33.86。作为对比,此前表现较强的基线 MVP 为 32.89。轻量版本 AdaptSplat-tiny 的 PSNR 也达到 33.70。
在 DL3DV 高分辨率评测中,AdaptSplat 在不同输入视角数量下均保持了较强竞争力。在玻璃器皿、桌面纹理和复杂边缘区域,AdaptSplat 可以恢复更加清晰的局部结构。
图 4:DL3DV 数据集上的定性对比。在玻璃器皿、桌面纹理和复杂边缘区域,AdaptSplat 能够保留更多高频细节。
跨域泛化能力,也是 AdaptSplat 特别关注的问题。
模型仅在 DL3DV 上训练,无需额外微调,就可以直接迁移到 Tanks & Temples 和 Mip-NeRF360 等新的场景分布。
论文还进一步测试了 NuScenes 自动驾驶场景。即使没有使用自动驾驶数据进行训练,AdaptSplat 依然展现出较强的 Zero-shot 迁移能力。
值得注意的是,FPA 本身仅额外增加约 1.5M 参数。
相比此前表现较强的基线 MVP,轻量版本 AdaptSplat-tiny 在保持相近推理速度的同时,实现了更高的重建质量。
这些结果说明:
AdaptSplat 的提升并不局限于某一个数据集或某一种场景。通过让高频几何信息在整条链路中发挥作用,模型可以同时改善局部细节、跨视角稳定性和跨域泛化能力。
7. 方法边界与未来方向
实事求是地说,AdaptSplat 并不是所有问题的终点。
当输入视角数量非常密集时,多视角 Transformer 中的注意力计算仍然会带来较高的显存开销。
此外,当前方法依赖较高精度的相机位姿。如果输入位姿存在明显误差,FPA 中的高频信息可能被注入错误的三维空间位置,反而影响重建质量。
面向更加复杂的真实部署环境,仍然需要进一步探索:
更高效的多视角注意力与显存优化方案 对位姿噪声更加鲁棒的高频聚合 Adapter
8. 结语:三维基础模型时代,需要的不只是更多模块
AdaptSplat 的意义,不只是提出了一个新的 3DGS 组件。
它尝试重新讨论 Feed-Forward 3DGS 的研究方式。
当通用框架逐渐成熟后,继续为每一个环节增加更加复杂的人工设计,未必是唯一答案。
面对有限的三维训练数据,更值得思考的问题可能是:
如何更加充分地利用视觉基础模型中的通用先验 如何让二维预训练表征真正适配多视角三维几何 如何让关键的几何信息贯穿整条重建链路 如何用尽可能轻量的设计,获得更加稳定的跨场景能力
AdaptSplat 给出了一条简洁但有效的路线:
保留通用框架,仅额外引入约 1.5M 参数的 Frequency-Preserving Adapter,在关键环节中补上一条高频几何通路。
不是盲目增加复杂度。
而是让已有能力真正联动起来。
这或许也是 Feed-Forward 3DGS 走向更强泛化、更高保真与更广泛应用的一条重要路径。
本文仅做学术分享,如有侵权,请联系删文。
。




添加微信:cv3d001,备注:姓名+方向+单位,邀请入群。



