2.6倍成功率碾压SOTA!双 VLM 架构 + 百万数据集,打造跨平台通用具身导航框架!

深蓝具身智能 2025-08-21 10:56

资讯配图

资讯配图

理解任何指令、在任何地方自主导航、精准找到任何目标

在现实生活中,我们给别人的指令往往是模糊而充满上下文的,比如“帮我泡杯咖啡”或者“把衣服晾到阳台”。但这对机器人来说,这却是一个巨大挑战。

目前主流的机器人导航系统仍局限于两种“相对简单”的模式:依赖逐句指引的视觉-语言导航(VLN),或者只能寻找固定类别物体的物体导航(ObjectNav)。它们在受限环境中表现尚可,可一旦面对真实世界中开放的环境、模糊的指令和复杂的空间关系,就显得力不从心。

如果机器人真的要融入日常,它必须突破三重瓶颈:理解任何指令、在任何环境中自主导航、精准找到任何目标。而这正是当前机器人导航研究的核心痛点。

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇

资讯配图

分层导航新范式

语义推理 × 精准定位

针对这一挑战,北京智源研究院联合清华大学等团队提出了NavA³框架,一套面向长时序、开放词汇的分层导航方法。

它把复杂的任务拆成两个阶段:

资讯配图

NavA³ 的执行流程:①全局策略(Global Policy)利用 Reasoning-VLM 解析高层指令(例如,“晾衣服” → 晾衣架),并结合 3D 场景理解确定目标位置(如阳台)。②局部策略(Local Policy)则使用 Pointing-VLM 导航至各个航路点,并借助 NaviAfford 模型进行精确的物体定位。NaviAfford 通过空间可供性理解(spatial affordance understanding),能够准确找到目标物体(如晾衣架)©️【深蓝具身智能】编译

接下来,我们将深入解读 NavA³ 是如何通过语义推理+空间可供性理解,并看看它在真实机器人上的表现。

资讯配图

分层架构驱动的长时序导航

NavA³ 的核心思想,是将复杂的“理解—推理—寻找—导航”任务分成全局策略局部策略两个阶段。

前者负责方向感和大局观,后者负责精准找物与最终到达(如下图)

资讯配图

NavA³ 的执框架总揽:全局策略使用 Reasoning-VLM 来解析高层的人类指令,并在 3D 场景中标记出可能的目标区域。到达目标区域后,局部策略使用 Pointing-VLM 在每个航路点搜索目标物体。若未找到,则预测下一个航路点;若检测到,则在自我视角图像上标记该物体,并导航至最终目的地©️【深蓝具身智能】编译

3D 场景构建

在执行任务前,NavA³ 首先为机器人构建一个带语义标注的 3D 场景:

资讯配图

NavA³ 的3D场景构建示意图©️【深蓝具身智能】编译

这样,机器人不仅知道哪里有房间,还能推断哪个房间更可能有目标物体。

全局策略(Global Policy)

全局策略的目标,是从自然语言指令中推断出具体要找的物体最可能出现的区域

举个例子:

指令是“帮我晾衣服”,Reasoning-VLM 会推断需要找到“晾衣架”,并推理它最可能在“阳台”,然后规划前往阳台的路径。

局部策略(Local Policy)

当机器人到达目标区域后,局部策略接管,重点是全景搜索和精确定位

① 物体可供性(Object Affordance):识别特定空间关系下的目标物体(如“沙发前的电视”)

② 空间可供性(Spatial Affordance):识别可放置或可通行的空位(如“桌子左侧的空位”)

资讯配图

NaviAfford 模型的训练与部署流程:该模型从多种室内场景中学习物体可供性和空间可供性,并输出精确的点坐标。在导航过程中,模型会进行实时的目标物体定位并生成目标点,局部策略将这些目标点转换为机器人坐标,从而有效地导航至目标物体©️【深蓝具身智能】编译

两阶段协作流程

若局部策略多次未找到目标,全局策略会重新推理并切换到其他可能区域。

资讯配图

跨场景、跨平台的稳定表现

NavA³ 的实验设计很有针对性,核心是验证它能否在真实的长时序任务中稳定完成目标定位与导航,同时适应不同类型的机器人平台

与主流方法对比

实验对比了三类基线方法:

(1)闭源通用 VLM(GPT-4o、Claude 3.5、Qwen-VL-Max 等)

(2)开源通用 VLM(Qwen2.5-VL、Janus-Pro、LLaVA-Next 等)

(3)导航专用方法(NaVid、NaVILA、MapNav 等)

结果亮点

资讯配图

对比实验数值结果©️【深蓝具身智能】编译

这说明 NavA³ 在不同布局和任务类型下,都能保持稳定的推理与定位能力,而不是只适合单一环境。

消融实验

为了评估各个模块的贡献团队做了三类消融:

资讯配图

资讯配图

资讯配图

由此可见:语义标注+高质量推理模型+定制化空间可供性模型是 NavA³ 高性能的三大支柱。

真实部署与跨平台验证

NavA³ 不仅在仿真中跑通,还部署到了两种真实机器人:

RealMan 轮式机器人、Unitree Go2 四足机器人

在这两种截然不同的形态下,系统都能完成“走到阳台上的晾衣架”等跨房间长时序任务,验证了方法的通用性与迁移性

真实机器人算法部署演示©️【深蓝具身智能】编译

资讯配图

总结

NavA³ 用一个清晰的“两步走”方案,把机器人从“只会执行固定指令”带向了“理解任何指令、在任何地方找到任何物体”的方向。

它的核心突破在于:

未来,这类方法不仅能服务于家庭、办公室的日常任务,还可能成为工厂巡检、应急搜救等高复杂度场景的基础能力。

编辑|阿豹

审编|具身君




工作投稿|商务合作|转载:SL13126828869

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?‍

欢迎关注【深蓝具身智能】👇

资讯配图
1、仅占投稿5% | 推荐入选 CoRL 2025 Oral 的17 篇硬核成果,看机器人学习新趋势!
2、机器人通用导航的底层密码:扩散模型,如何打通场景与平台壁垒?(2篇标志性成果解读)
3、技术拆解 | Galbot闭环控制实战,从感知到指令理解、决策,如何实现机器人的精准操作

【研发/硬件需求】咨询


💪致力于解决各类研发、硬件、人才需求。机器人、自动驾驶、无人机等研发硬件,研发合作、企业内训、高校建设、人才内推等具身智能行业综合方案。

商务合作扫码咨询


资讯配图

机器人、自动驾驶、无人机等研发硬件

资讯配图


关于我们:深蓝学院北京总部于2017年成立,2024年成立杭州分公司,2025年成立上海分公司。


学院课程涵盖人工智能、机器人、自动驾驶等各大领域,开设近100门线上课程。拥有多个实训基地助力教学与科研,多台科研平台硬件设备可供开展算法测试与验证。


服务专业用户数超11万(人工智能全产业链垂直领域的高净值用户),硕博学历用户占比高达70%。已与多家头部机器人企业、头部高校建立深度合作,深度赋能教育 、企业端人才培养与匹配。


工作投稿|商务合作|转载:SL13126828869


资讯配图

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果。


资讯配图

点击收藏并推荐本文

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
功率 导航
more
单季净利润增长13倍!国产功率半导体赢麻了,3家公司业绩报抢先看
【最全】2025年功率半导体行业上市公司全方位对比
芯联集成:上半年营收34.95亿元,车规功率模块收入增长200%
热计划丨跑山神器:价格4000多,2500W峰值功率,72V38Ah,TCS防侧滑+HDC陡坡缓降
芯导科技并购提升功率全栈能力,15亿理财在手缘何再配套融资?
灵巧手抓放任务成功率100%!帕西尼联合上交大提出融合触觉的VLA模型OmniVTLA
降本新战场:功率器件的国产替代与技术创新双轨制 | 盖世汽车2025第五届汽车芯片产业大会
碳化硅功率半导体器件产业链全景图
解锁英飞凌功率半导体知识宝藏,开启技术进阶之旅!
首个兼顾空间推理、开源、强泛化的机器人模型,6 大核心任务成功率远超 SOTA!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号