LingBot-Map长序列越跑越抖？港科广开源HorizonStream：48帧训练+万帧不崩，流式重建从此稳如磐石！

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

一作供稿直发 | 编辑：3D视觉工坊

流式3D重建号称"万帧不崩"的方法不少，但把它们拉到真正的长序列上跑一跑，画风就变了。

港科大（广州）联合地平线最新开源的HorizonStream，在VBR超长序列上ATE比LingBot-map低30%（18.84 vs 27.53），在一些场景上的差距更是达到4倍。而且，这个模型流式推理仅需8.5GB显存，消费级显卡可跑，边缘设备可部署。

长序列上到底谁更稳？

流式3D重建的核心考验不是跑几百帧有多准，而是跑几千上万帧后还能不能撑住。

该团队在论文中给出了一组关键的定性对比：随着序列长度增长，LingBot-map的位姿估计出现了显著的抖动(jitter)，点云重建逐渐碎片化；LongStream的轨迹则出现大幅漂移。而HorizonStream在同样的序列上，始终保持稳定的位姿和干净的重建。

LingBot-Map长序列越跑越抖？港科广开源HorizonStream：48帧训练+万帧不崩，流式重建从此稳如磐石！图1

数字更能说明问题：

VBR超长序列（数万帧，数公里，最能检验长程稳定性，有回环）：

方法	Avg ATE ↓
TTT3R	64.99
LongStream	77.93
InfiniteVGGT	65.60
LingBot-map	27.53
HorizonStream	18.84

Oxford Spires（大规模室内外混合，全序列不降采样，暗光+楼梯+室内外过渡）：

方法	ATE ↓
LingBot-map	15.46
LongStream	51.90
HorizonStream	8.71

KITTI全序列（不降采样，完整评测）：HorizonStream在全部流式方法中取得最优综合表现。

LingBot-Map长序列越跑越抖？港科广开源HorizonStream：48帧训练+万帧不崩，流式重建从此稳如磐石！图2

凭什么更强？技术拆解

差异一：遗忘方式——硬压缩 vs 连续衰减

LingBot-map的记忆策略分两段：远端将早期历史压缩为6个Token的轨迹记忆，近端则保留最近320帧的关键帧KV cache。问题是两头都有瓶颈——远端的"硬压缩"在超长序列中信息累积失真，压缩得越多，信息丢的越多；近端保留了320帧的完整cache，新旧证据混杂，模型无法区分哪些记忆仍然可靠、哪些早已过时，反而被陈旧信息干扰，导致注意力退化和缓存污染。

HorizonStream换了个思路：不硬压缩，而是让信息以几何合理的方式自然遗忘。该团队将这一机制形式化为几何证据影响核 K(t,i) = K_spatial · K_time，将注意力显式分解为空间因子（管精度）和时间因子（管续航）。

几何线性注意力：跨窗口的长程记忆

时间因子 K_time 由几何线性注意力实现。核心是维护一个固定大小的递推几何状态 S_t：

关键设计：γ_t 不是标量，而是一个通道级衰减向量。每个通道独立学习自己的衰减率，形成一个从短寿命到长寿命的连续留存谱：

低 γ 通道（几帧就衰减）→ 跟踪瞬时2D-3D匹配
中 γ 通道（几十帧衰减）→ 保持场景结构和运动模式
高 γ 通道（几百上千帧才衰减）→ 留存全局尺度和度量信息

这个谱是网络自动学到的。论文消融实验显示，将学到的连续谱替换为任何固定频带都会导致轨迹误差显著增加。更有趣的是，不同层学到的谱也不同——浅层偏向宽泛的中程保留，深层发展出更尖锐的长尾分布（论文Figure 6a）。

HorizonStream让网络自己决定每种信息该记多久——不该记的自然消退，该记的自然留存。

为什么数学上不会崩？ 因为所有γ严格小于1，旧证据的影响被约束为指数衰减，不可能出现无界累积。这从理论上杜绝了cache饱和问题。而LingBot-map的KV cache虽然做了容量限制，但近端cache内新旧证据等权混合，本质上没有解决"什么该忘"的问题。

补充一个有趣的联系：这个递推更新在数学上等价于一种带折扣的在线学习过程（类似Test-Time Training），但通过线性注意力的KV绑定，避免了TTT逐帧显式优化的高昂开销。

几何局部注意力：窗口内的精细匹配

空间因子K_spatial 由几何局部注意力实现，负责窗口内的精确3D对应关系匹配。两个关键设计：

头部可靠性门控：每个注意力头配一个可靠性门，自动抑制注意力汇聚(attention sink)和噪声对应关系。流式场景中噪声和attention sink无处不在，不过滤它们，误差会在长序列上持续累积。

时空旋转位置编码（Spatiotemporal RoPE）：将RoPE从2D扩展到时间-高度-宽度三个轴，Query和Key向量分三段各自旋转。关键细节：时间索引周期性重置，避免绝对位置无限增长；MRT和位姿token使用零位置 π=(0,0,0)，使注意力只关注相对几何结构。

消融实验表明，门控和3D RoPE互补——移除任何一个，长序列误差都会单调增长。

差异二：训练效率——渐进延长 vs 48帧直接泛化

LingBot-map需要从24帧渐进训练到320帧，逐步延长训练序列，训练代价高。

HorizonStream仅用48帧短片段训练，就能直接泛化到10000+帧。为什么？因为几何证据影响核定义的是一个与序列长度无关的有界递推规则——每来一帧，状态按同样的规则更新一次。48帧学会的传播规律，可以无限次重复施加，不需要见过长序列也能处理长序列。

差异三：度量稳定性——链式传递 vs 直接读取

逐帧链式传递位姿和尺度，误差像滚雪球——这是几乎所有流式方法的通病。

HorizonStream用两个机制破解这个问题：

度量读出Token（MRT）：每帧携带一个学习到的MRT token，参与几何线性注意力递推，专门从高保留通道中提取全局尺度信息。预测出尺度因子后，平移向量、深度图都经过尺度校准——相当于每帧自带一把"度量标尺"。

窗口内相对位姿融合：在局部窗口（W=10帧）内，Transformer头联合关注所有位姿token，估计当前帧相对窗口上下文的共识位姿，而非逐帧串联传递。多token投票天然抑制单帧噪声。深度由DPT解码器输出，同样注入MRT的尺度信息。

可选Loop Closure：对于有回环序列，还可以启用Loop Closure模块——通过DINOv2特征，检测重访帧对后重新送入网络估计局部几何修正，再通过位姿图优化全局轨迹一致性。

显存：一条水平线 vs 一条上升线

LingBot-Map长序列越跑越抖？港科广开源HorizonStream：48帧训练+万帧不崩，流式重建从此稳如磐石！图3

流式推理仅需最小恒定~8.5GB显存，从200帧到10000帧几乎不变。线性时间复杂度。

消费级显卡可跑。边缘设备可部署。

效果速览

六个场景，覆盖室内、室外、合成、工业，全部稳定重建：

一句话总结

序列越长，HorizonStream的优势越大。不是靠记住一切，而是靠学会正确地遗忘——这或许是流式3D重建真正走向万帧稳定的分水岭。

LingBot-Map长序列越跑越抖？港科广开源HorizonStream：48帧训练+万帧不崩，流式重建从此稳如磐石！图4

论文：https://arxiv.org/abs/2605.23889

项目主页：https://3dagentworld.github.io/horizonstream/

GitHub：https://github.com/3DAgentWorld/HorizonStream。

本文仅做学术分享，如有侵权，请联系删文。

。

LingBot-Map长序列越跑越抖？港科广开源HorizonStream：48帧训练+万帧不崩，流式重建从此稳如磐石！图5