点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
星球内有20多门3D视觉系统课程、300+场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎加入!

论文信息
标题:OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer
作者:Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen
机构:National Taiwan University、National Taiwan University of Science and Technology
原文链接:https://arxiv.org/abs/2603.05959
代码链接:https://vaisr.github.io/OVGGT/
导读
从流式视频中重建3D几何结构需要在资源有限的条件下持续进行推理。现有的几何基础模型通过全连接注意力机制实现了出色的重建效果,但它们所需的计算成本过高,因此只能用于处理较短的离线视频序列。而像StreamVGGT这样的因果注意力模型虽然能够实现单次处理即可完成视频分析,但其不断增长的KV缓存会耗尽GPU内存,导致在处理几百帧视频后就无法继续使用,从而无法实现长期连续的推理处理——而这正是进行流式视频处理的初衷。我们提出了OVGGT这一无需训练的框架:无论视频长度如何,它都能将内存和计算成本控制在固定范围内。该框架结合了“自选缓存”机制——利用FFN残差值来压缩KV缓存,同时保持与FlashAttention的兼容性;此外,它还采用了“动态锚点保护”机制,防止关键坐标信息被丢弃,从而确保在长时间处理过程中仍能保持精确的几何重建效果。通过在室内、室外以及超长视频序列上的大量实验验证表明,OVGGT能够在固定的VRAM容量下处理任意长度的视频,并实现最先进的3D几何重建精度。
效果展示
左图:对200帧图像中7-scenes的定量比较结果。右图:通过3D重建图直观展示OVGGT在较长序列中(50至500帧)的稳定性。

将我们的方法与StreamVGGT、Evict3R、InfiniteVGGT以及OVGGT进行对比。我们的方法能够生成更加完整、几何形状更准确的重建结果,尤其是在处理长序列数据时,其他方法往往会出现数据偏差或遗漏部分的情况。

引言
从顺序图像观测中重建三维场景几何结构是计算机视觉领域的基石性问题,它支撑着自主导航、增强现实、机器人操作以及大规模数字孪生构建等应用。这项任务要求从二维图像流中推断出密集且度量一致的空间结构,并协调单目观测固有的歧义性与多视图几何约束。数十年来,该领域的进展主要由经典流程驱动,这些流程将问题分解为级联阶段:关键点检测与匹配、鲁棒姿态估计、三角测量和束调整。虽然在受控条件下效果显著,但这些模块化设计存在固有缺陷:任一阶段的误差都会向下游传播,限制了其在无纹理表面、重复结构或大视角变化场景下的鲁棒性。
DUSt3R标志着一种范式转变,它开创了几何基础模型的时代,通过训练单个Transformer网络以端到端方式从图像对回归密集3D点图,完全绕过多级流程,且无需相机内参或显式特征匹配。后续研究通过引入密集对应关系和动态场景支持增强了该框架。然而,其逐对处理的本质从根本上限制了可扩展性:扩展到N个视图需要O(N²)次预测,随后还需进行昂贵的全局对齐优化。尽管后续的流式变体通过专门的架构设计实现了连续推理,但在处理长输入序列时仍存在精度下降的问题。
为了避免昂贵的全局对齐,后续研究试图通过全对全注意力设计来推进该范式。例如,VGGT通过交替进行帧内和全局全对全注意力来联合处理所有视图,在一次前向传播中预测相机参数、深度和点云。尽管如此,注意力的二次方成本问题依然存在:VGGT在处理约300帧时就会耗尽80GB的GPU内存,并且该范式本质上无法进行连续推理,因为每次调用都必须重新计算所有历史输入。为解决此限制,StreamVGGT将架构重新设计为类似自回归解码的时间因果注意力,缓存所有先前的KV对,使得每帧仅处理一次,从而实现了无需在每个时间步冗余重算的流式推理。然而,KV缓存的线性增长仍然是一个关键瓶颈:100帧时每层累积的令牌就已超过10⁵个(占用约10GB显存),且每步的注意力成本随序列长度增加而上升,这从根本上阻碍了其在流式三维重建所需的长序列上的部署。
在这项工作中,我们提出了OVGGT,一个面向在线流式场景的几何基础模型,它能在序列长度任意增长时保持恒定的内存和计算开销。该模型基于两个互补组件构建:自选择性缓存和动态锚点保护。SSC通过以下方式将推理时的缓存压缩到固定预算内:(i) 激活值评分,利用每个令牌在前向传播中已计算出的、且与FlashAttention完全兼容的FFN残差幅度来评估其几何显著性,并结合空间高斯平滑以鼓励连贯的令牌保留;(ii) 缓存压缩,将当前帧的激活值评分与历史键向量的多样性相结合,以平衡几何重要性和分布覆盖率。为在长序列中维持几何稳定性,DAP保护两类锚点免遭驱逐:全局初始锚点,永久保护所有首帧令牌以保持坐标系一致性;以及历史锚点,根据视角重叠覆盖度自适应注册,以提供长程几何参考。这两个组件均无需训练,不要求修改架构,可直接作为插件应用于预训练的因果注意力模型。实验表明,OVGGT能在固定的显存占用范围内处理任意长度的序列,同时其重建精度超越了使用完整缓存的StreamVGGT。
主要贡献
我们的贡献如下:(1) 提出了OVGGT,一个无需训练的在线流式框架,能在固定内存和计算开销下从任意长视频中进行3D推理,消除了现有因果注意力流程的可扩展性瓶颈。(2) 设计了自选择性缓存,结合基于FFN残差的激活值评分、空间平滑化和混合评分,将KV缓存压缩至固定预算,同时保持与FlashAttention完全兼容。(3) 引入了动态锚点保护,通过全局初始锚点和历史锚点保护对坐标关键性高的令牌不被驱逐,有效抑制了长轨迹上的几何漂移。大量实验表明,在室内、室外及超长序列基准测试上,该方法实现了最先进的几何精度,且相比现有的因果流式方法具有更高的吞吐量和更低的内存消耗。
方法
OVGGT的运作原理如下:在每个时间步中,输入帧被编码成标记符号,随后由一个时空解码器进行处理。该解码器会利用有限的KV缓存来存储和处理这些标记符号。此外,自选式缓存机制负责对标记符号进行评分和压缩;而动态锚点保护机制则能确保那些对系统运行至关重要的标记符号不会被移除。

实验结果
帧率与显存占用情况与视频长度的关系:OVGGT无论面对多长的视频,都能保持稳定的处理效率和内存使用量;而其他竞争算法则呈现出线性或超线性的增长趋势。

精确度、完整性以及倒角距离与序列长度之间的关系。OVGGT所使用的有限缓存机制,能够实现与全缓存版本的StreamVGGT相当的重建质量,甚至更优;而且,其性能在序列长度增加时也能保持稳定。

总结 & 未来工作
我们介绍了OVGGT,一个无需训练的框架,能够在恒定内存和计算开销下,从任意长的视频中进行流式3D重建。通过将自选择性缓存与锚点保护相结合,我们的方法将缓存压缩到固定预算,同时保留了几何关键性令牌,在室内、室外和超长序列基准测试上实现了最先进的精度,并且能在单张消费级GPU上达到实时吞吐量。
局限性与未来工作。尽管在固定资源开销下运行,OVGGT继承了单次因果传递流程的根本局限性:几何误差会单调累积且无法修正,因为缺乏重新审视过往预测的机制,且每帧只能参考有限的历史上下文。我们认为,分阶段流式推理是一个有前景的方向,它将小批量联合预测与周期性轻量级全局优化相结合,以期融合因果模型每阶段成本有限和批处理方法具备纠错能力的优点,从而在不进行全对全重算的情况下减轻长时漂移。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
。




添加微信:cv3d001,备注:姓名+方向+单位,邀请入群。