
理解「任何指令」、在「任何地方」自主导航、精准找到「任何目标」
在现实生活中,我们给别人的指令往往是模糊而充满上下文的,比如“帮我泡杯咖啡”或者“把衣服晾到阳台”。但这对机器人来说,这却是一个巨大挑战。
目前主流的机器人导航系统仍局限于两种“相对简单”的模式:依赖逐句指引的视觉-语言导航(VLN),或者只能寻找固定类别物体的物体导航(ObjectNav)。它们在受限环境中表现尚可,可一旦面对真实世界中开放的环境、模糊的指令和复杂的空间关系,就显得力不从心。
如果机器人真的要融入日常,它必须突破三重瓶颈:理解任何指令、在任何环境中自主导航、精准找到任何目标。而这正是当前机器人导航研究的核心痛点。
分层导航新范式
语义推理 × 精准定位
针对这一挑战,北京智源研究院联合清华大学等团队提出了NavA³框架,一套面向长时序、开放词汇的分层导航方法。
它把复杂的任务拆成两个阶段:
全局策略(Global Policy):利用具备推理能力的多模态大模型(Reasoning-VLM),从高层指令中推断出具体目标物体及其可能所在区域。
局部策略(Local Policy):在锁定的目标区域内,调用自主训练的 NaviAfford 模型(Pointing-VLM)进行全景感知与精准定位,完成最终导航。
▲NavA³ 的执行流程:①全局策略(Global Policy)利用 Reasoning-VLM 解析高层指令(例如,“晾衣服” → 晾衣架),并结合 3D 场景理解确定目标位置(如阳台)。②局部策略(Local Policy)则使用 Pointing-VLM 导航至各个航路点,并借助 NaviAfford 模型进行精确的物体定位。NaviAfford 通过空间可供性理解(spatial affordance understanding),能够准确找到目标物体(如晾衣架)©️【深蓝具身智能】编译
接下来,我们将深入解读 NavA³ 是如何通过语义推理+空间可供性理解,并看看它在真实机器人上的表现。

分层架构驱动的长时序导航
NavA³ 的核心思想,是将复杂的“理解—推理—寻找—导航”任务分成全局策略和局部策略两个阶段。
前者负责方向感和大局观,后者负责精准找物与最终到达(如下图)。
▲NavA³ 的执框架总揽:全局策略使用 Reasoning-VLM 来解析高层的人类指令,并在 3D 场景中标记出可能的目标区域。到达目标区域后,局部策略使用 Pointing-VLM 在每个航路点搜索目标物体。若未找到,则预测下一个航路点;若检测到,则在自我视角图像上标记该物体,并导航至最终目的地©️【深蓝具身智能】编译
3D 场景构建
在执行任务前,NavA³ 首先为机器人构建一个带语义标注的 3D 场景:
数据采集:用带 LiDAR 的移动设备扫描环境,生成高密度点云。
几何重建:通过特征点匹配和网格重构,还原连续且准确的 3D 场景。
语义标注:将 3D 场景转为俯视图,并用 MapNav 方法标注房间级别语义(如“茶水间”“会议室”“阳台”)。
双层地图:全局策略用带注释的语义地图,局部策略用未注释的局部地图,便于不同粒度的推理与定位(如下图)。
▲NavA³ 的3D场景构建示意图©️【深蓝具身智能】编译
这样,机器人不仅知道哪里有房间,还能推断哪个房间更可能有目标物体。
全局策略(Global Policy)
全局策略的目标,是从自然语言指令中推断出具体要找的物体和最可能出现的区域。
语义解析:通过设计好的多模态提示模板,引导 Reasoning-VLM 分解任务(如“泡咖啡”→咖啡机)。
空间推理:结合带标注的 3D 场景,计算各房间包含目标的可能性,选出最优搜索区域。
路径规划:在目标区域内随机抽取首个导航点(waypoint),交给局部策略执行探索。
举个例子:
指令是“帮我晾衣服”,Reasoning-VLM 会推断需要找到“晾衣架”,并推理它最可能在“阳台”,然后规划前往阳台的路径。
局部策略(Local Policy)
当机器人到达目标区域后,局部策略接管,重点是全景搜索和精确定位。
NaviAfford 模型:团队自建 100 万对空间可供性(affordance)数据,训练模型理解物体与空间的关系。
双重可供性标签:
① 物体可供性(Object Affordance):识别特定空间关系下的目标物体(如“沙发前的电视”)。
② 空间可供性(Spatial Affordance):识别可放置或可通行的空位(如“桌子左侧的空位”)。
全景感知:机器人在每个 waypoint 原地旋转采集全景图,NaviAfford 对照指令定位物体,并输出像素坐标。
坐标转换:将像素坐标结合深度信息转换为机器人坐标系下的物理位置,直接驱动机器人导航。
▲NaviAfford 模型的训练与部署流程:该模型从多种室内场景中学习物体可供性和空间可供性,并输出精确的点坐标。在导航过程中,模型会进行实时的目标物体定位并生成目标点,局部策略将这些目标点转换为机器人坐标,从而有效地导航至目标物体©️【深蓝具身智能】编译
两阶段协作流程
全局推理:推断目标物体及所在房间→规划前往目标区域。
局部探索:在目标区域逐点扫描→精准定位物体→转换坐标→导航到最终位置。
若局部策略多次未找到目标,全局策略会重新推理并切换到其他可能区域。

跨场景、跨平台的稳定表现
NavA³ 的实验设计很有针对性,核心是验证它能否在真实的长时序任务中稳定完成目标定位与导航,同时适应不同类型的机器人平台。
与主流方法对比
实验对比了三类基线方法:
(1)闭源通用 VLM(GPT-4o、Claude 3.5、Qwen-VL-Max 等)
(2)开源通用 VLM(Qwen2.5-VL、Janus-Pro、LLaVA-Next 等)
(3)导航专用方法(NaVid、NaVILA、MapNav 等)
结果亮点:
平均成功率提升 41.2%:NavA³ 在五个场景的平均 SR 达到 66.4%,远超最佳基线(MapNav 的 25.2%)。
!误差显著降低:NE 全面领先,例如在会议室 A 中,误差从基线的 7.21m 降到 1.23m。
跨场景一致性:五个场景的 SR 全部稳定在 60% 以上,没有“偏科”现象,全面领先对比的方法。
▲对比实验数值结果©️【深蓝具身智能】编译
这说明 NavA³ 在不同布局和任务类型下,都能保持稳定的推理与定位能力,而不是只适合单一环境。
消融实验
为了评估各个模块的贡献团队做了三类消融:
去掉语义地图标注:SR 平均下降28%,说明全局策略对语义信息依赖很大。
更换 Reasoning-VLM:GPT-4o 推理能力最强,换成其他大模型 SR 下降 3%~36%。
更换 Pointing-VLM:NaviAfford 的空间可供性理解最优,平均精度63.2%,显著高于 RoboPoint(50.2%)和 GPT-4o(23.2%)。
由此可见:语义标注+高质量推理模型+定制化空间可供性模型是 NavA³ 高性能的三大支柱。
真实部署与跨平台验证
NavA³ 不仅在仿真中跑通,还部署到了两种真实机器人:
RealMan 轮式机器人、Unitree Go2 四足机器人
在这两种截然不同的形态下,系统都能完成“走到阳台上的晾衣架”等跨房间长时序任务,验证了方法的通用性与迁移性!
▲真实机器人算法部署演示©️【深蓝具身智能】编译

总结
NavA³ 用一个清晰的“两步走”方案,把机器人从“只会执行固定指令”带向了“理解任何指令、在任何地方找到任何物体”的方向。
它的核心突破在于:
将高层语义理解与空间推理结合,让机器人能听懂模糊且开放的自然指令;
用大规模空间可供性数据训练专用定位模型,实现精准、稳健的物体指向;
在真实环境和不同形态机器人上验证了可用性,证明了跨平台迁移的潜力。
未来,这类方法不仅能服务于家庭、办公室的日常任务,还可能成为工厂巡检、应急搜救等高复杂度场景的基础能力。
编辑|阿豹
审编|具身君
工作投稿|商务合作|转载:SL13126828869
我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇
商务合作扫码咨询
机器人、自动驾驶、无人机等研发硬件
关于我们:深蓝学院北京总部于2017年成立,2024年成立杭州分公司,2025年成立上海分公司。
学院课程涵盖人工智能、机器人、自动驾驶等各大领域,开设近100门线上课程。拥有多个实训基地助力教学与科研,多台科研平台硬件设备可供开展算法测试与验证。
服务专业用户数超11万(人工智能全产业链垂直领域的高净值用户),硕博学历用户占比高达70%。已与多家头部机器人企业、头部高校建立深度合作,深度赋能教育 、企业端人才培养与匹配。
工作投稿|商务合作|转载:SL13126828869


点击❤收藏并推荐本文