视觉导航大一统!三大顶尖机构联合发布:UniWM 陌生场景成功率飙升 30%

深蓝具身智能 2025-10-29 10:56

视觉导航大一统!三大顶尖机构联合发布:UniWM 陌生场景成功率飙升 30%图1

当前视觉导航作为具身智能与自主系统的核心能力,需实现智能体对第一视角视觉输入的解读及目标导向的连续动作选择,但其发展受两大关键问题制约:

直接策略方法(如 GNM、NoMaD)虽在熟悉环境有效,但过度依赖训练数据,陌生场景适应性差;

模块化方法(如 NavCoT、NWM)将规划器与世界模型分离训练,且缺乏轨迹记忆,导致状态 - 动作错位,长期导航误差累积。

为此,华盛顿大学、卡内基梅隆大学与微软研究院团队,提出 UniWM 统一记忆增强世界模型让机器人能够在行动过程中实时“想象”未来数步的视觉场景,并基于推演结果规划最优路径。

这一设计将视觉感知、状态记忆与行动决策融合为统一世界模型,成为机器人“看见 - 推演 - 行动”环思考落地的关键突破。

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇

视觉导航大一统!三大顶尖机构联合发布:UniWM 陌生场景成功率飙升 30%图2

Planner+World model

过去的视觉导航体系往往是“分裂”的:

两个模块分开训练——planner 不知道自己想象的结果是否真实,而 world model 也不了解行动的真实意图。

久而久之,二者逐渐失配。研究者认为,真正的具身智能,应该像人脑那样统一思考:

行动决策与未来想象必须在同一架构内交替进行

视觉导航大一统!三大顶尖机构联合发布:UniWM 陌生场景成功率飙升 30%图3

图1|UniWM 框架总览©️【深蓝具身智能】编译

于是他们提出了 UniWM一个多模态自回归架构,在每个时间步交替执行两个子任务:

为了让推理更稳定,他们又加入了一个关键结构——层级记忆(Hierarchical Memory)

这样,模型不仅能“想象下一步”,还能“记得上一步”,实现真正的连续性推理与视觉一致性

视觉导航大一统!三大顶尖机构联合发布:UniWM 陌生场景成功率飙升 30%图4

技术亮点

统一架构:打破“感知—规划”割裂

UniWM 将导航规划(Planner)与世界建模(World Model)融为一体,在同一个多模态自回归 Transformer 中交替完成动作预测与视觉想象。

输入包括起点图像、目标图像、当前位置姿态及过往记忆,模型通过“下一步动作→下一帧画面”的交替生成方式,在一个闭环中完成“想→做→再想”。

这种统一式结构避免了以往模块化系统的“状态—动作错位”,让每一次行动都与模型的视觉想象紧密对齐

层级记忆机制:短期与长期并行

研究者设计了双层记忆库——

系统通过两种机制动态融合这两类记忆:

视觉导航大一统!三大顶尖机构联合发布:UniWM 陌生场景成功率飙升 30%图5

图2|层级记忆机制示意:模型在每一步开始时,从选定层中提取特征键值(K、V)并存入短期记忆。随后,这些即时信息会与长期轨迹记忆融合:通过“相似度筛选”选出最相关的历史帧,再用“时间衰减权重”控制远近记忆的影响,最终形成融合记忆,用于增强规划与视觉子任务的注意力计算。当当前步结束后,这一短期记忆会附上时间戳并被存入长期库,为下一步推理提供连续上下文。这套机制让 UniWM 能在长时间导航中保持稳定和高效的想象©️【深蓝具身智能】编译

最终,系统将短期记忆与加权的长期记忆拼接成“融合记忆(Fused Memory)”,直接参与注意力计算,从而在多步预测中维持轨迹一致性与时序连贯性

论文中的实验证明:在四个数据集上,只有同时使用 intra- 和 cross-memory 时,模型才能在长时导航中保持最低误差和最高成功率

统一训练:离散动作与图像重建的双目标优化

为了在同一模型中同时学习“行动”和“想象”,研究者设计了交替训练策略(interleaved training)

(1)每个 batch 中同时包含两类样本:

(2)在训练目标上,模型联合优化两个损失:

(3)保证生成画面的结构与语义一致性。

这两种损失的协同优化,使模型同时学会“如何走”与“走后会看到什么”。

在推理时,UniWM 按“预测动作 → 想象画面”的顺序循环执行,形成带记忆的交替闭环推理流程,这也是它能在复杂场景下保持稳定行为的关键所在

视觉导航大一统!三大顶尖机构联合发布:UniWM 陌生场景成功率飙升 30%图6

图3|这张图展示了两种训练目标对性能的贡献:左侧是导航指标,右侧是视觉生成质量。实验发现:加入图像重建损失(Lworld)能提升模型对未来画面的“想象清晰度”;离散化动作损失(Lplan)则直接提高行动决策的准确性;当两者联合使用时,模型在导航成功率与视觉保真度上均达到最佳©️【深蓝具身智能】编译

视觉导航大一统!三大顶尖机构联合发布:UniWM 陌生场景成功率飙升 30%图7

实验与表现

UniWM 在四个主流导航基准(Go Stanford、ReCon、SCAND、HuRoN)成功率(SR)最高提升 30%轨迹误差(ATE、RPE)显著下降。

特别是在 Go Stanford 数据集上,成功率从 0.45 提升到 0.75。在未见过的 TartanDrive 环境中,UniWM 依然能零样本泛化,无需微调即可完成导航,SR 达到 0.42。

视觉导航大一统!三大顶尖机构联合发布:UniWM 陌生场景成功率飙升 30%图8

图5|多数据集下的导航性能对比在四个具身导航基准(Go Stanford、ReCon、SCAND、HuRoN)上,UniWM 的成功率(SR)全面领先,轨迹误差(ATE、RPE)最低。无论是短期精度还是长时一致性,UniWM 都显著优于 GNM、VINT、NoMaD 及 NWM 等当前最强基线。其中,带有层级记忆版本的 UniWM 实现了整体最优表现©️【深蓝具身智能】编译

视觉想象质量同样出色:

在 SSIM、PSNR、LPIPS 等指标上全面超越以往世界模型(如 NWM、Diamond),预测画面更清晰、更一致;

视觉导航大一统!三大顶尖机构联合发布:UniWM 陌生场景成功率飙升 30%图9

图4|可视化对比实验:展示 UniWM、NWM 与 NoMaD 三种方法的导航效果。图中轨迹曲线清晰对比了各方法预测路径与真实路径的差异。可以看到,UniWM 的轨迹最贴近真实路线,在复杂场景中保持更平滑、更稳定的运动趋势©️【深蓝具身智能】编译

而引入层级记忆后,长时推理中的画面漂移几乎消失。实验也揭示了几个关键规律:

视觉导航大一统!三大顶尖机构联合发布:UniWM 陌生场景成功率飙升 30%图10
视觉导航大一统!三大顶尖机构联合发布:UniWM 陌生场景成功率飙升 30%图11

总结

UniWM 让机器人具备了带记忆的想象力。它不再只是被动响应当前视觉,而能主动在脑中构建未来的“视觉剧本”,并据此规划路径。

从具身智能的角度看,这是一个重要的跃迁:它让“世界模型”从单纯的预测工具,变成了行动的思维引擎

编辑|阿豹

审编|具身君


Ref

论文题目:UNIFIED WORLD MODELS: MEMORY-AUGMENTED PLANNING AND FORESIGHT FOR VISUAL NAVIGATION

论文地址:https://arxiv.org/pdf/2510.08713

项目地址: https://github.com/F1y1113/UniWM


工作投稿|商务合作|转载:SL13126828869(微信号)

>>>现在成为星友,特享99元/年<<<

视觉导航大一统!三大顶尖机构联合发布:UniWM 陌生场景成功率飙升 30%图12

视觉导航大一统!三大顶尖机构联合发布:UniWM 陌生场景成功率飙升 30%图13

【具身宝典】


【技术深度】


【先锋观点】


【非开源代码复现】

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?‍

欢迎关注【深蓝具身智能】👇


视觉导航大一统!三大顶尖机构联合发布:UniWM 陌生场景成功率飙升 30%图14

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果。

投稿|商务合作|转载:SL13126828869(微信)


视觉导航大一统!三大顶尖机构联合发布:UniWM 陌生场景成功率飙升 30%图15

点击收藏并推荐本文

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
功率 导航
more
致所有在三维重建、SLAM、机器人导航中‘挣扎’的同行们
地平线机器人具身导航快慢推理新探索!FSR-VLN:基于分层多模态场景图快慢推理的视觉语言导航
60Hz的连续推理效率!上海 AI Lab开源端到端双系统导航大模型InternVLA·N1
“跳跃基因”的导航密码,破译了!
NeurIPS 2025 Oral!新国大提出机器人视觉语言导航方法Dynam3D,增强3D空间理解能力
深圳eVTOL大会亮点:博伦思导航系统和地景匹配产品,引领低空经济新突破
猕猴大脑如何“导航”手的运动?自动化所研究发现类似“GPS”的神经编码机制
巨大进步!李飞飞“空间智能”最新成果,单个图像生成大规模3D世界,更持久、可导航、可控制
基于移动设备采集的3DGS实现个性化Real-to-Sim-to-Real导航
化学反应的「全景地图」来了,机器人帮科学家导航高维实验空间
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号