恒定8.5GB显存跑完万帧！港科广×地平线HorizonStream，48帧训练

点击下方卡片，关注“具身智能之心”公众号

作者丨Chong Cheng 等
编辑丨具身智能之心
本文只做学术分享，如有侵权，联系删文

更多干货，欢迎加入国内首个具身智能全栈学习社区：(戳我)，这里包含所有你想要的。

48帧训练，10000+帧泛化，8.5GB恒定显存，KITTI全序列不降采样。Oxford Spires上ATE甩开LingBot-map，VBR超长序列上领先约30%，这是港科大（广州）联合地平线刚开源的HorizonStream——一个仅需RGB视频就能实现万帧级稳定流式3D重建的模型。

论文链接：https://arxiv.org/abs/2605.23889
项目主页：https://3dagentworld.github.io/horizonstream/
GitHub：https://github.com/3DAgentWorld/HorizonStream

先看效果

输入仅RGB视频，同步输出深度、位姿和完整3D点云。城市驾驶场景、Cyberpunk2077、城市街区、工业厂区、室内室外交替、全程稳定。

打开引擎盖

一句话概括核心思路：让不同类型的几何信息以不同速率衰减。

技术上，HorizonStream将注意力机制解耦为一个几何证据影响核 K(t,i) = K_spatial · K_time：

几何线性注意力（时间维度）：每个通道学习独立的指数衰减率。局部匹配快速消退，场景结构缓慢衰减，全局尺度长期留存。维护一个O(1)的递推几何状态，显存恒定。
几何局部注意力（空间维度）：窗口内精确3D匹配，配合时空RoPE和头部可靠性门控，过滤噪声对应关系。
度量读出Token（MRT）：直接从几何状态的高留存通道恢复全局尺度和位姿，避免逐帧链式传递的误差累积。

训练方面，48帧短片段、两阶段训练，直接泛化到万帧。不需要渐进式延长训练序列。