点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息
标题:LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos
作者:Chin-Yang Lin, Cheng Sun, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu
机构:National Yang Ming Chiao Tung University、NVIDIA
原文链接:https://arxiv.org/abs/2508.14041
代码链接:https://linjohnss.github.io/longsplat/
1. 导读
LongSplat解决了从随意捕获的长视频中合成新颖视图(NVS)的关键挑战,这些视频的特点是不规则的相机运动、未知的相机姿态和广阔的场景。当前方法常常受到姿态漂移、不准确的几何初始化以及严重的内存限制的影响。为了解决这些问题,我们引入了LongSplat,一个健壮的无姿态3D高斯撒播框架,其特点包括:(1)增量联合优化,同时优化相机姿态和3D高斯分布,以避免局部最小值并确保全局一致性;(2)一个利用学习到的3D先验的健壮姿态估计模块;以及(3)一个高效的八叉树锚点形成机制,该机制基于空间密度将密集的点云转换为锚点。在具有挑战性的基准测试上的广泛实验表明,LongSplat取得了最先进的成果,与先前的方法相比,显著提高了渲染质量、姿态精度和计算效率。
2. 效果展示
LongSplat能够在未提供相机姿态的情况下,从随意拍摄的长视频中稳健地生成新颖视图。我们的方法同时优化相机姿态和3D高斯散点映射,即使在具有挑战性的条件下也能产生准确且视觉上连贯的重建效果。

3. 引言
高质量的三维重建与新视角合成(NVS)是虚拟现实、增强现实、虚拟旅游和文化遗产保护等应用的核心技术。它们在视频编辑任务中也发挥着关键作用,例如稳像处理、视觉特效制作,以及房地产或行人级导航的数字测绘。随着智能手机和运动相机的普及,随意拍摄的视频已成为重要的三维内容来源。与专业采集的数据集不同,这类随意拍摄的视频具有挑战性特征:不规则的相机轨迹、长达数百甚至数千帧的长序列,以及缺乏可靠的相机位姿或精确的几何先验信息。
针对随意拍摄视频的新视角合成(NVS)任务,存在两个关键挑战:扩展轨迹上的鲁棒相机位姿估计,以及大规模场景的高效表征。传统方法依赖运动恢复结构(SfM)预处理提供的精确位姿,但如图2所示,COLMAP等流水线在随意拍摄场景中经常失效。无需COLMAP的方法往往面临严重的内存限制,制约了其在大规模场景中的有效性。类似地,LocalRF等方法在复杂相机轨迹下表现不佳,导致重建结果碎片化。像MASt3R这样的基础模型虽然能提供快速的初始位姿估计,但在长视频中会出现不准确和漂移现象,严重影响重建质量。

为解决这些限制,我们提出LongSplat——一种专为随意拍摄长视频设计的鲁棒非定位三维高斯溅射(3DGS)框架。LongSplat无需依赖提供的相机位姿即可实现准确的新视角合成。该框架突破传统流水线,通过统一框架联合优化相机位姿和三维高斯溅射模型。它整合了基于对应关系的位姿估计模块与三维几何及光度精修机制,即使在大规模非结构化相机运动下也能提升位姿精度。此外,通过基于空间密度的密集点云转换锚点策略,其高效八叉树锚点生成机制显著降低内存占用,同时保留场景的细节结构。这些组件通过增量式联合优化策略协同工作,避免局部极小值并确保长序列间的全局几何一致性。
在包含Tanks and Temples、Free和Hike等挑战性数据集上的大量实验表明,LongSplat持续优于现有方法,显著提升了渲染质量和位姿精度。如图2所示,相比传统方法,LongSplat能生成更清晰、更连贯的重建结果,有效解决了位姿漂移和内存限制问题,显著推进了该领域的技术水平。
4. 主要贡献
本研究的主要贡献包括:
• 一种增量式联合优化方法,实现相机位姿与三维高斯溅射模型的同步重建,减少局部极小值并确保全局一致性。
• 基于学习三维先验的鲁棒位姿估计模块,实现精确的相机位姿估计。
• 自适应八叉树锚点生成策略,在保持重建质量的同时大幅降低内存占用。
5. 方法
LongSplat通过基于八叉树锚定三维高斯溅射的完全增量式流水线,重建具有未知相机位姿和非约束轨迹的长视频序列。该过程始于八叉树锚点生成阶段,将每帧的密集点云结构化为自适应表征。随后,利用基于对应关系的初始化和光度对齐机制估计并精修相机位姿。最终,重建过程在局部优化与全局精修之间交替进行:局部优化更新可见性自适应窗口内的三维高斯,全局精修确保长期一致性。这种设计使LongSplat能够鲁棒地处理长距离非约束轨迹,同时适应场景复杂度并最小化漂移。推荐课程:实时400FPS!高精NeRF/Gaussian SLAM定位与建图。

6. 实验结果
在挑战性的Free数据集上评估LongSplat,如表1和图7所示,其重建质量显著优于其他方法。CF-3DGS等竞争方法常面临内存不足(OOM)问题,而LocalRF会产生碎片化几何结构和位姿漂移。尽管MASt3R+Scaffold-GS避免了OOM错误,但MASt3R不准确的全局位姿估计导致渲染模糊和结构失真。定量分析(表2)和定性展示(图8)均表明,我们的方法持续实现更低的位姿误差。



7. 总结 & 局限性
我们提出LongSplat——一种针对随意拍摄长视频的鲁棒非定位三维高斯溅射框架。该框架整合了增量式联合优化、鲁棒跟踪模块和自适应八叉树锚点机制,显著提升了位姿精度、重建质量和内存效率。大量实验证实,LongSplat持续优于现有先进方法。未来工作将探索动态场景处理和增强位姿估计的鲁棒性。
LongSplat与其他非定位重建方法共享常见限制,假设场景静态且相机内参固定,因此不适用于动态物体或变焦距场景。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
3D视觉硬件,官网:www.3dcver.com
3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!