Instant4D:分钟级单目视频的4D高斯泼溅重建(NeurIPS 2025)

具身智能之心 2025-10-15 19:00




  • 标题:NeurIPS 2025 | 4D Gaussian Splatting in Minutes

  • 论文链接:

  1. Website: https://instant4d.github.io/
  2. Github: https://github.com/Zhanpeng1202/Instant4D

Instant4D 能够在数分钟内重建 Sora 生成的视频

背景:

最近,视频生成生成模型例如 Sora, Veo3 得到了社区的关注。 这些模型能够生成具有视觉吸引力,高度逼真,天马行空的视频。 在这个工作中,我们希望能够重建任意视频,并且实现新视角渲染,把AIGC视频变为可探索的场景,为下游任务,如虚拟现实,增强现实提供便利。

相关工作:

近期的动态重建工作可以较好的完成单目重建任务,但是通常依赖点跟踪,深度估计,光流,以及刚体运动规律。由于优化速度慢且参数估计复杂,从未校准的随意视频中重建场景仍然具有挑战性。因此现有的工作 Motion Scaffold, Shape-of-Motion 等通常需要接近一小时来优化一个 仅仅6 秒视频,限制了下游应用的可行性。

Instant4D 解决从未校准的视频序列中高效地单目重建动态场景问题,我们的贡献如下:

  1. 我们提出了 Instant4D,一种现代化的全自动流程,可在几分钟内重建任意的单目视频,并实现了 30 倍加速。
  2. 我们引入了一种网格剪枝策略,可将高斯函数的数量减少 92%,同时保留遮挡结构,并使其可扩展到长视频序列。
  3. 我们提出了一种简化的、各向同性的、运动感知的、适用于单目设置下的4DGS 实现。在 Dycheck 数据集上的性能比当前最先进的方法提高了 29%。
Instant4D:分钟级单目视频的4D高斯泼溅重建(NeurIPS 2025)图1
图1: Instant4D 的工作框架我们使用深度视觉SLAM模型和Unidepth来获取相机参数和度量深度估计。

单目深度将进一步优化为一致的视频深度。之后,我们从一致的深度进行反向投影以获得密集点云,并进一步通过体素滤波获得稀疏点云。基于四维高斯初始化,我们可以在2分钟内重建一个场景。

几何重建设计

我们采用了最新的可微SLAM 方法 MegaSAM来获得相机位姿,接着我们视频一致优化深度,并且反投影至世界坐标系,得到密集点云。对于一个时长 4 秒(30 FPS)的 512×512 视频序列进行深度图反向投影,可得到约 30 M 个原始 3D 点。为了减少静态背景的大面积冗余和动态部分的遮挡问题,我们将世界空间划分为规则的体素网格,并仅保留每个已占用体素内点的质心。

除此之外,由于单目重建的特性,部分背景会消失于视锥,使模型认为这是动态点。为此我们采用了 MegaSAM 的中间产物,得到了每个像素点的运动概率。

4D Gaussian Splatting 设计

对于单目优化场景,我们的出发点是提供密集的几何先验,并减少优化的自由度,以实现优化加速和稳健的泛化。对于4 维高斯,我们保留 4D 均值,和对角缩放(),RGB 常数颜色,剔除高阶 SCH,参数量减少 60% 以上。

给定时间戳条件 3D 分布:

各向同性高斯

固定旋转R=I,空间/时间各一标量缩放,提升单目优化稳定性,根据实验,各向同性设计会提升渲染质量PSNR1.25 dB

运动感知高斯

利用动静蒙版,对静态区域设置更大时间缩放,动态区域设置更小的时间缩放,确保静态高斯不因离可见帧消失于视锥而消失于场景;远离当前帧的动态高斯按:

并且在渲染管线中,我们剔除低透明度高斯,抑制冗余,进一步加速渲染。

实验:

Instant4D 在现有的 NVIDIA 和 Dycheck 数据集中取得了最佳优化,渲染速度和内存效率,并且达到了 state-of-the-art 渲染质量。

Instant4D:分钟级单目视频的4D高斯泼溅重建(NeurIPS 2025)图2
表一: Nvidia 数据集效果比较,相比 InstantSplat 和Casual-FVS 我们实现了 8 倍加速,10 倍的实时渲染速度加速,和更高的 渲染质量
Instant4D:分钟级单目视频的4D高斯泼溅重建(NeurIPS 2025)图3
图2:Nvidia 数据集可视化
Instant4D:分钟级单目视频的4D高斯泼溅重建(NeurIPS 2025)图4
表二: Dycheck 数据集效果比较,我们实现相比基线的30 倍加速

Instant4D:分钟级单目视频的4D高斯泼溅重建(NeurIPS 2025)图5

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IP
more
【投融资】拒Meta8亿收购后,韩国芯片独角兽FuriosaAI,筹备3亿美元Pre-IPO轮融资
【好物】华为FreeClip 2耳夹耳机1249元预售赠99元Care+服务、4399元起vivo X300系列正式发布
快讯|前三季度我国出口工业机器人增长54.9%;机器人科技体验店入驻首都机场;国产泳池机器人龙头赴港IPO等
苹果突然官宣:10月22日,新iPhone开售!
iPhone17 PM又翻车?后盖竟然会氧化,“星宇橙”变“玫瑰金”
NeurIPS25 Spotlight | 可解释高效注意力
赛力斯港股IPO:580页资料61次提华为,研发占比不足岚图一半
Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
NeurIPS 2025 Spotlight | 条件表征学习:一步对齐表征与准则
70到80美元?苹果可折叠iPhone铰链成本或低于预期
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号