ICCV'25开源 | 无需任何标注！NVIDIA新作LongSplat：从任意拍摄的长视频重建3D高斯！

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) ！星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos

作者：Chin-Yang Lin, Cheng Sun, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu

机构：National Yang Ming Chiao Tung University、NVIDIA

原文链接：https://arxiv.org/abs/2508.14041

代码链接：https://linjohnss.github.io/longsplat/

1. 导读

LongSplat解决了从随意捕获的长视频中合成新颖视图（NVS）的关键挑战，这些视频的特点是不规则的相机运动、未知的相机姿态和广阔的场景。当前方法常常受到姿态漂移、不准确的几何初始化以及严重的内存限制的影响。为了解决这些问题，我们引入了LongSplat，一个健壮的无姿态3D高斯撒播框架，其特点包括：（1）增量联合优化，同时优化相机姿态和3D高斯分布，以避免局部最小值并确保全局一致性；（2）一个利用学习到的3D先验的健壮姿态估计模块；以及（3）一个高效的八叉树锚点形成机制，该机制基于空间密度将密集的点云转换为锚点。在具有挑战性的基准测试上的广泛实验表明，LongSplat取得了最先进的成果，与先前的方法相比，显著提高了渲染质量、姿态精度和计算效率。

2. 效果展示

LongSplat能够在未提供相机姿态的情况下，从随意拍摄的长视频中稳健地生成新颖视图。我们的方法同时优化相机姿态和3D高斯散点映射，即使在具有挑战性的条件下也能产生准确且视觉上连贯的重建效果。

3. 引言

高质量的三维重建与新视角合成（NVS）是虚拟现实、增强现实、虚拟旅游和文化遗产保护等应用的核心技术。它们在视频编辑任务中也发挥着关键作用，例如稳像处理、视觉特效制作，以及房地产或行人级导航的数字测绘。随着智能手机和运动相机的普及，随意拍摄的视频已成为重要的三维内容来源。与专业采集的数据集不同，这类随意拍摄的视频具有挑战性特征：不规则的相机轨迹、长达数百甚至数千帧的长序列，以及缺乏可靠的相机位姿或精确的几何先验信息。

针对随意拍摄视频的新视角合成（NVS）任务，存在两个关键挑战：扩展轨迹上的鲁棒相机位姿估计，以及大规模场景的高效表征。传统方法依赖运动恢复结构（SfM）预处理提供的精确位姿，但如图2所示，COLMAP等流水线在随意拍摄场景中经常失效。无需COLMAP的方法往往面临严重的内存限制，制约了其在大规模场景中的有效性。类似地，LocalRF等方法在复杂相机轨迹下表现不佳，导致重建结果碎片化。像MASt3R这样的基础模型虽然能提供快速的初始位姿估计，但在长视频中会出现不准确和漂移现象，严重影响重建质量。

为解决这些限制，我们提出LongSplat——一种专为随意拍摄长视频设计的鲁棒非定位三维高斯溅射（3DGS）框架。LongSplat无需依赖提供的相机位姿即可实现准确的新视角合成。该框架突破传统流水线，通过统一框架联合优化相机位姿和三维高斯溅射模型。它整合了基于对应关系的位姿估计模块与三维几何及光度精修机制，即使在大规模非结构化相机运动下也能提升位姿精度。此外，通过基于空间密度的密集点云转换锚点策略，其高效八叉树锚点生成机制显著降低内存占用，同时保留场景的细节结构。这些组件通过增量式联合优化策略协同工作，避免局部极小值并确保长序列间的全局几何一致性。

在包含Tanks and Temples、Free和Hike等挑战性数据集上的大量实验表明，LongSplat持续优于现有方法，显著提升了渲染质量和位姿精度。如图2所示，相比传统方法，LongSplat能生成更清晰、更连贯的重建结果，有效解决了位姿漂移和内存限制问题，显著推进了该领域的技术水平。

4. 主要贡献

本研究的主要贡献包括：

• 一种增量式联合优化方法，实现相机位姿与三维高斯溅射模型的同步重建，减少局部极小值并确保全局一致性。

• 基于学习三维先验的鲁棒位姿估计模块，实现精确的相机位姿估计。

• 自适应八叉树锚点生成策略，在保持重建质量的同时大幅降低内存占用。

5. 方法

LongSplat通过基于八叉树锚定三维高斯溅射的完全增量式流水线，重建具有未知相机位姿和非约束轨迹的长视频序列。该过程始于八叉树锚点生成阶段，将每帧的密集点云结构化为自适应表征。随后，利用基于对应关系的初始化和光度对齐机制估计并精修相机位姿。最终，重建过程在局部优化与全局精修之间交替进行：局部优化更新可见性自适应窗口内的三维高斯，全局精修确保长期一致性。这种设计使LongSplat能够鲁棒地处理长距离非约束轨迹，同时适应场景复杂度并最小化漂移。推荐课程：实时400FPS！高精NeRF/Gaussian SLAM定位与建图。

6. 实验结果

在挑战性的Free数据集上评估LongSplat，如表1和图7所示，其重建质量显著优于其他方法。CF-3DGS等竞争方法常面临内存不足（OOM）问题，而LocalRF会产生碎片化几何结构和位姿漂移。尽管MASt3R+Scaffold-GS避免了OOM错误，但MASt3R不准确的全局位姿估计导致渲染模糊和结构失真。定量分析（表2）和定性展示（图8）均表明，我们的方法持续实现更低的位姿误差。