点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
一作供稿直发 | 编辑:3D视觉工坊
流式3D重建号称"万帧不崩"的方法不少,但把它们拉到真正的长序列上跑一跑,画风就变了。
港科大(广州)联合地平线最新开源的HorizonStream,在VBR超长序列上ATE比LingBot-map低30%(18.84 vs 27.53),在一些场景上的差距更是达到4倍。而且,这个模型流式推理仅需8.5GB显存,消费级显卡可跑,边缘设备可部署。
长序列上到底谁更稳?
流式3D重建的核心考验不是跑几百帧有多准,而是跑几千上万帧后还能不能撑住。
该团队在论文中给出了一组关键的定性对比:随着序列长度增长,LingBot-map的位姿估计出现了显著的抖动(jitter),点云重建逐渐碎片化;LongStream的轨迹则出现大幅漂移。而HorizonStream在同样的序列上,始终保持稳定的位姿和干净的重建。

数字更能说明问题:
VBR超长序列(数万帧,数公里,最能检验长程稳定性,有回环):
| HorizonStream | 18.84 |
Oxford Spires(大规模室内外混合,全序列不降采样,暗光+楼梯+室内外过渡):
| HorizonStream | 8.71 |
KITTI全序列(不降采样,完整评测):HorizonStream在全部流式方法中取得最优综合表现。

凭什么更强?技术拆解
差异一:遗忘方式——硬压缩 vs 连续衰减
LingBot-map的记忆策略分两段:远端将早期历史压缩为6个Token的轨迹记忆,近端则保留最近320帧的关键帧KV cache。问题是两头都有瓶颈——远端的"硬压缩"在超长序列中信息累积失真,压缩得越多,信息丢的越多;近端保留了320帧的完整cache,新旧证据混杂,模型无法区分哪些记忆仍然可靠、哪些早已过时,反而被陈旧信息干扰,导致注意力退化和缓存污染。
HorizonStream换了个思路:不硬压缩,而是让信息以几何合理的方式自然遗忘。该团队将这一机制形式化为几何证据影响核 K(t,i) = K_spatial · K_time,将注意力显式分解为空间因子(管精度)和时间因子(管续航)。
几何线性注意力:跨窗口的长程记忆
时间因子 K_time 由几何线性注意力实现。核心是维护一个固定大小的递推几何状态 S_t:
关键设计:γ_t 不是标量,而是一个通道级衰减向量。每个通道独立学习自己的衰减率,形成一个从短寿命到长寿命的连续留存谱:
低 γ 通道(几帧就衰减)→ 跟踪瞬时2D-3D匹配 中 γ 通道(几十帧衰减)→ 保持场景结构和运动模式 高 γ 通道(几百上千帧才衰减)→ 留存全局尺度和度量信息
这个谱是网络自动学到的。论文消融实验显示,将学到的连续谱替换为任何固定频带都会导致轨迹误差显著增加。更有趣的是,不同层学到的谱也不同——浅层偏向宽泛的中程保留,深层发展出更尖锐的长尾分布(论文Figure 6a)。
HorizonStream让网络自己决定每种信息该记多久——不该记的自然消退,该记的自然留存。
为什么数学上不会崩? 因为所有γ严格小于1,旧证据的影响被约束为指数衰减,不可能出现无界累积。这从理论上杜绝了cache饱和问题。而LingBot-map的KV cache虽然做了容量限制,但近端cache内新旧证据等权混合,本质上没有解决"什么该忘"的问题。
补充一个有趣的联系:这个递推更新在数学上等价于一种带折扣的在线学习过程(类似Test-Time Training),但通过线性注意力的KV绑定,避免了TTT逐帧显式优化的高昂开销。
几何局部注意力:窗口内的精细匹配
空间因子K_spatial 由几何局部注意力实现,负责窗口内的精确3D对应关系匹配。两个关键设计:
头部可靠性门控:每个注意力头配一个可靠性门,自动抑制注意力汇聚(attention sink)和噪声对应关系。流式场景中噪声和attention sink无处不在,不过滤它们,误差会在长序列上持续累积。
时空旋转位置编码(Spatiotemporal RoPE):将RoPE从2D扩展到时间-高度-宽度三个轴,Query和Key向量分三段各自旋转。关键细节:时间索引周期性重置,避免绝对位置无限增长;MRT和位姿token使用零位置 π=(0,0,0),使注意力只关注相对几何结构。
消融实验表明,门控和3D RoPE互补——移除任何一个,长序列误差都会单调增长。
差异二:训练效率——渐进延长 vs 48帧直接泛化
LingBot-map需要从24帧渐进训练到320帧,逐步延长训练序列,训练代价高。
HorizonStream仅用48帧短片段训练,就能直接泛化到10000+帧。为什么?因为几何证据影响核定义的是一个与序列长度无关的有界递推规则——每来一帧,状态按同样的规则更新一次。48帧学会的传播规律,可以无限次重复施加,不需要见过长序列也能处理长序列。
差异三:度量稳定性——链式传递 vs 直接读取
逐帧链式传递位姿和尺度,误差像滚雪球——这是几乎所有流式方法的通病。
HorizonStream用两个机制破解这个问题:
度量读出Token(MRT):每帧携带一个学习到的MRT token,参与几何线性注意力递推,专门从高保留通道中提取全局尺度信息。预测出尺度因子后,平移向量、深度图都经过尺度校准——相当于每帧自带一把"度量标尺"。
窗口内相对位姿融合:在局部窗口(W=10帧)内,Transformer头联合关注所有位姿token,估计当前帧相对窗口上下文的共识位姿,而非逐帧串联传递。多token投票天然抑制单帧噪声。深度由DPT解码器输出,同样注入MRT的尺度信息。
可选Loop Closure:对于有回环序列,还可以启用Loop Closure模块——通过DINOv2特征,检测重访帧对后重新送入网络估计局部几何修正,再通过位姿图优化全局轨迹一致性。
显存:一条水平线 vs 一条上升线

流式推理仅需最小恒定~8.5GB显存,从200帧到10000帧几乎不变。线性时间复杂度。
消费级显卡可跑。边缘设备可部署。
效果速览
六个场景,覆盖室内、室外、合成、工业,全部稳定重建:
一句话总结
序列越长,HorizonStream的优势越大。不是靠记住一切,而是靠学会正确地遗忘——这或许是流式3D重建真正走向万帧稳定的分水岭。

论文:https://arxiv.org/abs/2605.23889
项目主页:https://3dagentworld.github.io/horizonstream/
GitHub:https://github.com/3DAgentWorld/HorizonStream。
本文仅做学术分享,如有侵权,请联系删文。
。




添加微信:cv3d001,备注:姓名+方向+单位,邀请入群。