大模型时代的前馈高斯重建:AdaptSplat 如何用 Adapter 范式激活通用视觉先验?

3D视觉工坊 2026-06-12 07:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

作者供稿直发 | 编辑:3D视觉工坊

星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎加入!大模型时代的前馈高斯重建:AdaptSplat 如何用 Adapter 范式激活通用视觉先验?图1

0. 论文信息

  • 论文标题:AdaptSplat: Adapting Vision Foundation Models for Feed-Forward 3D Gaussian Splatting
  • 作者: Mingwei Xing、Xinliang Wang、Yifeng Shi(通讯作者)
  • 机构: KE Holdings Inc.(贝壳找房)
  • GitHub:https://github.com/xmw666/AdaptSplat
  • Paper:https://arxiv.org/abs/2605.10239

1. 导读:三维重建正在从“逐场景优化”走向“通用模型”

三维重建正在经历一次重要变化。

过去,基于 3D Gaussian Splatting 的方法通常需要针对每一个场景单独优化。面对一个新的房间、一段新的街景或一组新的拍摄图像,模型往往需要重新拟合,才能得到可渲染的三维表示。

Feed-Forward 3DGS 提出了另一种可能:

输入一组多视角图像,通过一次前向推理,直接预测可渲染的 3D Gaussian 表示。

这意味着,三维重建正在从“每个场景都要重新训练”,逐渐走向“运行一个可以泛化的通用模型”。

无论是大规模空间数字化、VR 内容生产,还是自动驾驶场景建模,这条路线都具有很强的吸引力。

但随着越来越多方法进入这条赛道,一个值得重新思考的问题也逐渐浮现:

Feed-Forward 3DGS 的性能提升,是否一定要依赖越来越复杂的结构设计?

这正是 AdaptSplat 想讨论的问题。

AdaptSplat 没有重新设计一套更加庞大的三维重建系统,也没有继续为每一个环节堆叠大量任务特定模块。

它选择了一条更加克制的路线:

保留标准的 Feed-Forward 3DGS 管线,仅额外引入一个约 1.5M 参数的轻量 Adapter,让高频几何信息在整条重建链路的关键环节中更加顺畅地流动起来。

它想证明的是:

真正缺少的未必是更多模块,而是让正确的信息,在正确的位置发挥作用。

2. 当通用管线逐渐形成,下一步还要继续堆模块吗?

尽管已有方法的具体设计各不相同,但主流 Feed-Forward 3DGS 方法大多可以被归纳为一条相似的管线:

图像特征提取 → 多视角交互 → 特征解码

模型首先从输入图像中提取视觉特征,再建立跨视角对应关系,随后逐步恢复空间分辨率,并预测 Gaussian 的位置、透明度、尺度、旋转和颜色等参数。

为了提升重建效果,已有工作通常会围绕不同环节持续增加设计:

  • 更复杂的多视角交互
  • 更强的几何先验
  • 更重的解码器
  • 更加精细的训练策略

这些探索有效推动了 Feed-Forward 3DGS 的发展。

但它们也带来了一个现实问题:

当高质量三维训练数据依然有限时,结构复杂度是否一定能够稳定转化为跨场景泛化能力?

AdaptSplat 并不是否定已有工作,而是尝试提出另一种可能:

当通用框架已经逐渐形成,下一步未必是继续堆叠模块,而可能是重新审视整条链路中真正缺失的信息。

大模型时代的前馈高斯重建:AdaptSplat 如何用 Adapter 范式激活通用视觉先验?图2

图 1:AdaptSplat 的核心出发点。相比不断为多视角交互和解码器增加复杂设计,AdaptSplat 保留标准管线,通过轻量适配探索更加简洁的 Feed-Forward 3DGS 路线。

3. 真正容易丢失的,是高频几何信息

对于三维重建而言,仅仅“看懂场景”是不够的。

模型不仅需要知道图像中存在桌子、栏杆、玻璃器皿或建筑物,还需要准确判断:

  • 物体边界在哪里
  • 表面沿什么方向延伸
  • Gaussian 应该如何旋转和拉伸
  • 哪些细小结构必须被保留下来

但深层神经网络天然倾向于平滑信息。

随着特征不断变深,网络会更加关注稳定的低频语义,而锐利边缘、局部纹理和细小结构则容易被削弱。解码器在逐步恢复分辨率时,也可能进一步抹掉这些细节。

对于图像分类而言,这通常不是严重问题。

即使桌子的边缘略微模糊,模型依然可以判断“这是一张桌子”。

但对于 3DGS,情况完全不同。

Gaussian primitive 需要紧密贴合真实表面。边缘方向会直接影响 Gaussian 的尺度和旋转参数。

当边缘信息逐渐模糊,模型面对不确定区域时,容易给出更加“安全”的预测:不同方向上的尺度逐渐接近,原本应该沿着物体表面拉伸的 Gaussian,退化为更加接近球形的 Gaussian。

结果就是:

桌角变钝、栏杆变粗、玻璃器皿粘连,复杂纹理逐渐模糊。

这不是简单的视觉锐度问题,而是 Gaussian primitive 的几何拟合能力受到了限制。

4. AdaptSplat:不是重做网络,而是打通链路

AdaptSplat 保留了一条尽可能简洁的通用主干:

  • 使用 DINOv3-ConvNeXt 提取视觉特征
  • 使用标准 Multi-view Transformer 建立跨视角对应关系
  • 使用标准 DPT Decoder 恢复空间分辨率
  • 使用 Gaussian Heads 预测可渲染的三维表示

在此基础上,论文仅额外引入一个核心模块:

Frequency-Preserving Adapter,简称 FPA。

FPA 约包含 1.5M 参数

它并不是网络末端的一个小补丁,也不只是用来“激活视觉基础模型”。

更准确地说,FPA 像是一条贯穿关键环节的高频几何通路。

它从浅层特征中提取具有方向感知能力的结构信息,再将这些信息分别注入 Multi-view Transformer 和 DPT Decoder。

在多视角交互阶段,高频信息帮助模型更加准确地判断哪些结构区域值得关注。

在逐级解码阶段,高频信息则帮助模型减少细节损失,更好地保留边缘与局部结构。

与此同时,视觉 backbone 也会参与端到端训练,使预训练表征主动适配多视角三维几何约束。

AdaptSplat 真正建立的是一种联动:

视觉基础模型的通用表征、浅层高频结构、多视角交互与逐级解码,围绕几何细节形成协同,最终改善 Gaussian primitive 的拟合。

大模型时代的前馈高斯重建:AdaptSplat 如何用 Adapter 范式激活通用视觉先验?图3

图 2:AdaptSplat 整体框架。FPA 从浅层特征中提取高频结构先验,并分别注入 Multi-view Transformer 和 DPT Decoder,使几何细节在关键环节中得到持续保留。

5. 不只是让图像更锐,而是让 Gaussian 拟合得更合理

提到高频信息,读者很容易联想到二维图像锐化。

但 AdaptSplat 的提升并不只停留在“看起来更清楚”。

论文进一步分析了物体边界附近的 Gaussian 分布。

在没有 FPA 时,部分 Gaussian 更接近圆形投影。这意味着不同方向上的尺度差异较小,Gaussian 难以紧密贴合物体表面。

加入 FPA 后,Gaussian 会沿着真实边界方向形成更加明显的各向异性拉伸。

换句话说,FPA 并不是简单地对最终图像进行后处理,而是实际改变了 Gaussian primitive 的几何拟合方式。

大模型时代的前馈高斯重建:AdaptSplat 如何用 Adapter 范式激活通用视觉先验?图4

图 3:物体边界附近的 Gaussian 分布。没有 FPA 时,Gaussian 更接近圆形投影;加入 FPA 后,Gaussian 会沿着真实边界方向拉伸,从而更加贴合局部几何结构。

论文还使用 Fractional Anisotropy,也就是 FA 指标,对这种变化进行了量化。加入 FPA 后,FA 从 0.8015 提升至 0.8423

论文中的注意力可视化、频域分析和动态 Mask 可视化也得出了相互印证的结论:

  • 模型更加关注物体轮廓和结构边界
  • 恢复结果的中高频分布更加接近 Ground Truth
  • 解码阶段的动态 Mask 更加聚焦于容易损失细节的位置

这些结果共同说明:

AdaptSplat 改善的不只是渲染图像的锐度,而是模型对复杂表面和锐利边界的三维表达能力。

6. 实验:简洁的设计,也可以带来全面提升

AdaptSplat 在 RE10K、DL3DV、Tanks & Temples、Mip-NeRF360 和 NuScenes 等多个数据集上进行了验证。

在 RE10K 数据集上,给定 6 个输入视角并预测 8 个新视角时,AdaptSplat-base 的 PSNR 达到 33.86。作为对比,此前表现较强的基线 MVP 为 32.89。轻量版本 AdaptSplat-tiny 的 PSNR 也达到 33.70

在 DL3DV 高分辨率评测中,AdaptSplat 在不同输入视角数量下均保持了较强竞争力。在玻璃器皿、桌面纹理和复杂边缘区域,AdaptSplat 可以恢复更加清晰的局部结构。

大模型时代的前馈高斯重建:AdaptSplat 如何用 Adapter 范式激活通用视觉先验?图5

图 4:DL3DV 数据集上的定性对比。在玻璃器皿、桌面纹理和复杂边缘区域,AdaptSplat 能够保留更多高频细节。

跨域泛化能力,也是 AdaptSplat 特别关注的问题。

模型仅在 DL3DV 上训练,无需额外微调,就可以直接迁移到 Tanks & Temples 和 Mip-NeRF360 等新的场景分布。

论文还进一步测试了 NuScenes 自动驾驶场景。即使没有使用自动驾驶数据进行训练,AdaptSplat 依然展现出较强的 Zero-shot 迁移能力。

值得注意的是,FPA 本身仅额外增加约 1.5M 参数

相比此前表现较强的基线 MVP,轻量版本 AdaptSplat-tiny 在保持相近推理速度的同时,实现了更高的重建质量。

这些结果说明:

AdaptSplat 的提升并不局限于某一个数据集或某一种场景。通过让高频几何信息在整条链路中发挥作用,模型可以同时改善局部细节、跨视角稳定性和跨域泛化能力。

7. 方法边界与未来方向

实事求是地说,AdaptSplat 并不是所有问题的终点。

当输入视角数量非常密集时,多视角 Transformer 中的注意力计算仍然会带来较高的显存开销。

此外,当前方法依赖较高精度的相机位姿。如果输入位姿存在明显误差,FPA 中的高频信息可能被注入错误的三维空间位置,反而影响重建质量。

面向更加复杂的真实部署环境,仍然需要进一步探索:

  • 更高效的多视角注意力与显存优化方案
  • 对位姿噪声更加鲁棒的高频聚合 Adapter

8. 结语:三维基础模型时代,需要的不只是更多模块

AdaptSplat 的意义,不只是提出了一个新的 3DGS 组件。

它尝试重新讨论 Feed-Forward 3DGS 的研究方式。

当通用框架逐渐成熟后,继续为每一个环节增加更加复杂的人工设计,未必是唯一答案。

面对有限的三维训练数据,更值得思考的问题可能是:

  • 如何更加充分地利用视觉基础模型中的通用先验
  • 如何让二维预训练表征真正适配多视角三维几何
  • 如何让关键的几何信息贯穿整条重建链路
  • 如何用尽可能轻量的设计,获得更加稳定的跨场景能力

AdaptSplat 给出了一条简洁但有效的路线:

保留通用框架,仅额外引入约 1.5M 参数的 Frequency-Preserving Adapter,在关键环节中补上一条高频几何通路。

不是盲目增加复杂度。

而是让已有能力真正联动起来。

这或许也是 Feed-Forward 3DGS 走向更强泛化、更高保真与更广泛应用的一条重要路径。

本文仅做学术分享,如有侵权,请联系删文。

大模型时代的前馈高斯重建:AdaptSplat 如何用 Adapter 范式激活通用视觉先验?图6大模型时代的前馈高斯重建:AdaptSplat 如何用 Adapter 范式激活通用视觉先验?图7大模型时代的前馈高斯重建:AdaptSplat 如何用 Adapter 范式激活通用视觉先验?图8大模型时代的前馈高斯重建:AdaptSplat 如何用 Adapter 范式激活通用视觉先验?图9

添加微信:cv3d001,备注:姓名+方向+单位,邀请入群。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
大模型
more
摩尔线程宣布开源MusaCoder:首个国产GPU全栈训练代码大模型!
AI大模型入局宠物经济,萌小译推出硬件级“猫狗翻译器”
ACL 2026 Oral|语义推理如鲠在喉:大模型被「短语」难住了
EvoBrain:浙大潘纲教授团队让脑电大模型持续进化
刚刚,国产预训练具身大模型开源了,让后训练不再是必选项!
阿里巴巴升级大模型组织架构,成立Token Foundry事业部
「千问」险成北京大厂的大模型名称;初代模型创始人深夜查岗,怒问为什么没人爱工作;算力黑洞致手机厂项目延期丨AI情报局
Qwen3.7-Max编程力跃居全球第二,国产大模型突围代码竞技场
当AI大模型被重新定价:云知声发布U2,迎来「DeepSeek时刻」
余承东:负责华为盘古大模型,会从中国第一走向世界第一
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号