大模型时代的前馈高斯重建：AdaptSplat 如何用 Adapter 范式激活通用视觉先验？

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

作者供稿直发 | 编辑：3D视觉工坊

星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎加入！大模型时代的前馈高斯重建：AdaptSplat 如何用 Adapter 范式激活通用视觉先验？图1

0. 论文信息

论文标题：AdaptSplat: Adapting Vision Foundation Models for Feed-Forward 3D Gaussian Splatting
作者： Mingwei Xing、Xinliang Wang、Yifeng Shi（通讯作者）
机构： KE Holdings Inc.（贝壳找房）
GitHub：https://github.com/xmw666/AdaptSplat
Paper：https://arxiv.org/abs/2605.10239

1. 导读：三维重建正在从“逐场景优化”走向“通用模型”

三维重建正在经历一次重要变化。

过去，基于 3D Gaussian Splatting 的方法通常需要针对每一个场景单独优化。面对一个新的房间、一段新的街景或一组新的拍摄图像，模型往往需要重新拟合，才能得到可渲染的三维表示。

Feed-Forward 3DGS 提出了另一种可能：

输入一组多视角图像，通过一次前向推理，直接预测可渲染的 3D Gaussian 表示。

这意味着，三维重建正在从“每个场景都要重新训练”，逐渐走向“运行一个可以泛化的通用模型”。

无论是大规模空间数字化、VR 内容生产，还是自动驾驶场景建模，这条路线都具有很强的吸引力。

但随着越来越多方法进入这条赛道，一个值得重新思考的问题也逐渐浮现：

Feed-Forward 3DGS 的性能提升，是否一定要依赖越来越复杂的结构设计？

这正是 AdaptSplat 想讨论的问题。

AdaptSplat 没有重新设计一套更加庞大的三维重建系统，也没有继续为每一个环节堆叠大量任务特定模块。

它选择了一条更加克制的路线：

保留标准的 Feed-Forward 3DGS 管线，仅额外引入一个约 1.5M 参数的轻量 Adapter，让高频几何信息在整条重建链路的关键环节中更加顺畅地流动起来。

它想证明的是：

真正缺少的未必是更多模块，而是让正确的信息，在正确的位置发挥作用。

2. 当通用管线逐渐形成，下一步还要继续堆模块吗？

尽管已有方法的具体设计各不相同，但主流 Feed-Forward 3DGS 方法大多可以被归纳为一条相似的管线：

图像特征提取 → 多视角交互 → 特征解码

模型首先从输入图像中提取视觉特征，再建立跨视角对应关系，随后逐步恢复空间分辨率，并预测 Gaussian 的位置、透明度、尺度、旋转和颜色等参数。

为了提升重建效果，已有工作通常会围绕不同环节持续增加设计：

更复杂的多视角交互
更强的几何先验
更重的解码器
更加精细的训练策略

这些探索有效推动了 Feed-Forward 3DGS 的发展。

但它们也带来了一个现实问题：

当高质量三维训练数据依然有限时，结构复杂度是否一定能够稳定转化为跨场景泛化能力？

AdaptSplat 并不是否定已有工作，而是尝试提出另一种可能：

当通用框架已经逐渐形成，下一步未必是继续堆叠模块，而可能是重新审视整条链路中真正缺失的信息。

图 1：AdaptSplat 的核心出发点。相比不断为多视角交互和解码器增加复杂设计，AdaptSplat 保留标准管线，通过轻量适配探索更加简洁的 Feed-Forward 3DGS 路线。

3. 真正容易丢失的，是高频几何信息

对于三维重建而言，仅仅“看懂场景”是不够的。

模型不仅需要知道图像中存在桌子、栏杆、玻璃器皿或建筑物，还需要准确判断：

物体边界在哪里
表面沿什么方向延伸
Gaussian 应该如何旋转和拉伸
哪些细小结构必须被保留下来

但深层神经网络天然倾向于平滑信息。

随着特征不断变深，网络会更加关注稳定的低频语义，而锐利边缘、局部纹理和细小结构则容易被削弱。解码器在逐步恢复分辨率时，也可能进一步抹掉这些细节。

对于图像分类而言，这通常不是严重问题。

即使桌子的边缘略微模糊，模型依然可以判断“这是一张桌子”。

但对于 3DGS，情况完全不同。

Gaussian primitive 需要紧密贴合真实表面。边缘方向会直接影响 Gaussian 的尺度和旋转参数。

当边缘信息逐渐模糊，模型面对不确定区域时，容易给出更加“安全”的预测：不同方向上的尺度逐渐接近，原本应该沿着物体表面拉伸的 Gaussian，退化为更加接近球形的 Gaussian。

结果就是：

桌角变钝、栏杆变粗、玻璃器皿粘连，复杂纹理逐渐模糊。

这不是简单的视觉锐度问题，而是 Gaussian primitive 的几何拟合能力受到了限制。

4. AdaptSplat：不是重做网络，而是打通链路

AdaptSplat 保留了一条尽可能简洁的通用主干：

使用 DINOv3-ConvNeXt 提取视觉特征
使用标准 Multi-view Transformer 建立跨视角对应关系
使用标准 DPT Decoder 恢复空间分辨率
使用 Gaussian Heads 预测可渲染的三维表示

在此基础上，论文仅额外引入一个核心模块：

Frequency-Preserving Adapter，简称 FPA。

FPA 约包含 1.5M 参数。

它并不是网络末端的一个小补丁，也不只是用来“激活视觉基础模型”。

更准确地说，FPA 像是一条贯穿关键环节的高频几何通路。

它从浅层特征中提取具有方向感知能力的结构信息，再将这些信息分别注入 Multi-view Transformer 和 DPT Decoder。

在多视角交互阶段，高频信息帮助模型更加准确地判断哪些结构区域值得关注。

在逐级解码阶段，高频信息则帮助模型减少细节损失，更好地保留边缘与局部结构。

与此同时，视觉 backbone 也会参与端到端训练，使预训练表征主动适配多视角三维几何约束。

AdaptSplat 真正建立的是一种联动：

视觉基础模型的通用表征、浅层高频结构、多视角交互与逐级解码，围绕几何细节形成协同，最终改善 Gaussian primitive 的拟合。

图 2：AdaptSplat 整体框架。FPA 从浅层特征中提取高频结构先验，并分别注入 Multi-view Transformer 和 DPT Decoder，使几何细节在关键环节中得到持续保留。

5. 不只是让图像更锐，而是让 Gaussian 拟合得更合理

提到高频信息，读者很容易联想到二维图像锐化。

但 AdaptSplat 的提升并不只停留在“看起来更清楚”。

论文进一步分析了物体边界附近的 Gaussian 分布。

在没有 FPA 时，部分 Gaussian 更接近圆形投影。这意味着不同方向上的尺度差异较小，Gaussian 难以紧密贴合物体表面。

加入 FPA 后，Gaussian 会沿着真实边界方向形成更加明显的各向异性拉伸。

换句话说，FPA 并不是简单地对最终图像进行后处理，而是实际改变了 Gaussian primitive 的几何拟合方式。

图 3：物体边界附近的 Gaussian 分布。没有 FPA 时，Gaussian 更接近圆形投影；加入 FPA 后，Gaussian 会沿着真实边界方向拉伸，从而更加贴合局部几何结构。

论文还使用 Fractional Anisotropy，也就是 FA 指标，对这种变化进行了量化。加入 FPA 后，FA 从 0.8015 提升至 0.8423。

论文中的注意力可视化、频域分析和动态 Mask 可视化也得出了相互印证的结论：

模型更加关注物体轮廓和结构边界
恢复结果的中高频分布更加接近 Ground Truth
解码阶段的动态 Mask 更加聚焦于容易损失细节的位置

这些结果共同说明：

AdaptSplat 改善的不只是渲染图像的锐度，而是模型对复杂表面和锐利边界的三维表达能力。

6. 实验：简洁的设计，也可以带来全面提升

AdaptSplat 在 RE10K、DL3DV、Tanks & Temples、Mip-NeRF360 和 NuScenes 等多个数据集上进行了验证。

在 RE10K 数据集上，给定 6 个输入视角并预测 8 个新视角时，AdaptSplat-base 的 PSNR 达到 33.86。作为对比，此前表现较强的基线 MVP 为 32.89。轻量版本 AdaptSplat-tiny 的 PSNR 也达到 33.70。

在 DL3DV 高分辨率评测中，AdaptSplat 在不同输入视角数量下均保持了较强竞争力。在玻璃器皿、桌面纹理和复杂边缘区域，AdaptSplat 可以恢复更加清晰的局部结构。

图 4：DL3DV 数据集上的定性对比。在玻璃器皿、桌面纹理和复杂边缘区域，AdaptSplat 能够保留更多高频细节。

跨域泛化能力，也是 AdaptSplat 特别关注的问题。

模型仅在 DL3DV 上训练，无需额外微调，就可以直接迁移到 Tanks & Temples 和 Mip-NeRF360 等新的场景分布。

论文还进一步测试了 NuScenes 自动驾驶场景。即使没有使用自动驾驶数据进行训练，AdaptSplat 依然展现出较强的 Zero-shot 迁移能力。

值得注意的是，FPA 本身仅额外增加约 1.5M 参数。

相比此前表现较强的基线 MVP，轻量版本 AdaptSplat-tiny 在保持相近推理速度的同时，实现了更高的重建质量。

这些结果说明：

AdaptSplat 的提升并不局限于某一个数据集或某一种场景。通过让高频几何信息在整条链路中发挥作用，模型可以同时改善局部细节、跨视角稳定性和跨域泛化能力。

7. 方法边界与未来方向

实事求是地说，AdaptSplat 并不是所有问题的终点。

当输入视角数量非常密集时，多视角 Transformer 中的注意力计算仍然会带来较高的显存开销。

此外，当前方法依赖较高精度的相机位姿。如果输入位姿存在明显误差，FPA 中的高频信息可能被注入错误的三维空间位置，反而影响重建质量。

面向更加复杂的真实部署环境，仍然需要进一步探索：

更高效的多视角注意力与显存优化方案
对位姿噪声更加鲁棒的高频聚合 Adapter

8. 结语：三维基础模型时代，需要的不只是更多模块

AdaptSplat 的意义，不只是提出了一个新的 3DGS 组件。

它尝试重新讨论 Feed-Forward 3DGS 的研究方式。

当通用框架逐渐成熟后，继续为每一个环节增加更加复杂的人工设计，未必是唯一答案。

面对有限的三维训练数据，更值得思考的问题可能是：

如何更加充分地利用视觉基础模型中的通用先验
如何让二维预训练表征真正适配多视角三维几何
如何让关键的几何信息贯穿整条重建链路
如何用尽可能轻量的设计，获得更加稳定的跨场景能力

AdaptSplat 给出了一条简洁但有效的路线：

保留通用框架，仅额外引入约 1.5M 参数的 Frequency-Preserving Adapter，在关键环节中补上一条高频几何通路。

不是盲目增加复杂度。

而是让已有能力真正联动起来。

这或许也是 Feed-Forward 3DGS 走向更强泛化、更高保真与更广泛应用的一条重要路径。

本文仅做学术分享，如有侵权，请联系删文。

。

大模型时代的前馈高斯重建：AdaptSplat 如何用 Adapter 范式激活通用视觉先验？图6