点击下方卡片,关注“具身智能之心”公众号
作者丨Chong Cheng 等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
>>
更多干货,欢迎加入国内首个具身智能全栈学习社区:(戳我),这里包含所有你想要的。
48帧训练,10000+帧泛化,8.5GB恒定显存,KITTI全序列不降采样。Oxford Spires上ATE甩开LingBot-map,VBR超长序列上领先约30%,这是港科大(广州)联合地平线刚开源的HorizonStream——一个仅需RGB视频就能实现万帧级稳定流式3D重建的模型。
论文链接:https://arxiv.org/abs/2605.23889
项目主页:https://3dagentworld.github.io/horizonstream/
GitHub:https://github.com/3DAgentWorld/HorizonStream
先看效果
输入仅RGB视频,同步输出深度、位姿和完整3D点云。城市驾驶场景、Cyberpunk2077、城市街区、工业厂区、室内室外交替、全程稳定。
打开引擎盖
一句话概括核心思路:让不同类型的几何信息以不同速率衰减。
技术上,HorizonStream将注意力机制解耦为一个几何证据影响核 K(t,i) = K_spatial · K_time:
几何线性注意力(时间维度):每个通道学习独立的指数衰减率。局部匹配快速消退,场景结构缓慢衰减,全局尺度长期留存。维护一个O(1)的递推几何状态,显存恒定。 几何局部注意力(空间维度):窗口内精确3D匹配,配合时空RoPE和头部可靠性门控,过滤噪声对应关系。 度量读出Token(MRT):直接从几何状态的高留存通道恢复全局尺度和位姿,避免逐帧链式传递的误差累积。
训练方面,48帧短片段、两阶段训练,直接泛化到万帧。不需要渐进式延长训练序列。
跑分碾压
KITTI全序列(不降采样,完整评测):

在全部流式方法中取得最优综合表现。注意:大多数竞品论文在测试上使用降采样评测,HorizonStream用的是完整序列——这是更严格、也更真实的测试条件。
VBR超长序列(万帧级别):

序列越长,优势越明显。
显存与时间scaling:

最小恒定~8.5GB显存,线性时间复杂度。从200帧到10000帧,显存曲线几乎是一条水平线。
对自动驾驶和机器人意味着什么
硬件成本:纯RGB输入,不依赖激光雷达和深度传感器。一颗普通摄像头就能实现实时3D建图。
边缘部署:恒定8.5GB显存意味着可以跑在车载/机载的嵌入式GPU上,不需要大规模算力。地平线作为联合研究方,其自动驾驶芯片与流式重建算法的组合想象空间不小。
长航时作业:万帧恒定显存 = 机器人可以在大型空间中长时间自主导航,不会因内存溢出而中断。
快速适配:48帧训练的低成本意味着适配新场景(仓库、矿山、农田)的门槛大幅降低。
结语
当大多数团队还在讨论"怎么让流式3D重建跑得更长"的时候,HorizonStream团队给出了一个更本质的回答:不是记住一切,而是以正确的方式遗忘。 48帧训练跑通万帧,恒定显存碾平长序列——这或许是流式3D重建走向实用化的一个关键节点。

推荐阅读 :
