机器人导航“质的飞跃”!字节&NUS:2篇标志性双系统架构解析,重塑自主导航技术范式

深蓝具身智能 2025-09-23 10:56

资讯配图

资讯配图

给机器人装上“预见未来”的副驾

 | 基于预测的决策

真正的自主导航,尤其在未知或部分可见的环境中,从来不是单一模态的任务。它是一场多模态推理的终极挑战:

智能体必须将视觉感知、语言理解与空间推理无缝融合,构建一个动态的、可预测的内心世界模型。

这正是 Astra 与 CogniPlan 作为双系统架构的突破性所在。它们不再将“感知”与“规划”视为独立的流水线,而是构成了一个协同推理引擎:基于预测的决策。

Astra确保了智能体对当下环境的精准理解,而CogniPlan赋予了它“穿透墙壁”思考未来的能力。

两者结合,使得智能体不仅能响应指令,更能主动推理、预测并优化其行动策略,从而在复杂的、前所未有的真实世界中实现真正鲁棒和高效的导航。

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇

资讯配图

Astra

我们首先介绍字节跳动的研究成果Astra,用于解决移动机器人在多样、复杂室内环境中的导航难题。

 核心思想与创新

与传统导航系统依赖多个小型模块或规则系统不同,Astra提出了一个双模型架构,将核心导航任务整合到两个高度智能的模型中

资讯配图

双模型架构由以下两方面构成:

它负责处理低频次但需要高级语义理解的任务,即目标定位(根据用户语言指令找到目标地点)和机器人自定位(判断“我在哪里”)。

它负责处理高频次的实时任务,包括局部路径规划(避开障碍物、驶向子目标)和里程计估计(融合多传感器数据精确推算自身运动)。

这种分工借鉴了人类的“系统1/系统2”思维模式,兼顾了深思熟虑的语义推理和快速反应的实时控制,是其最根本的创新。

系统详解

(1)Astra-Global(全局战略大脑)

理解用户的语言指令(如“我想找个地方休息”),并在预先构建的混合拓扑-语义地图中找到目标的位置;同时,也能根据机器人当前看到的图像,确定机器人自身在地图中的精确位置。

资讯配图

① 混合地图构建:

离线阶段,系统会根据环境的演示视频,自动构建一张独特的地图。

这张地图不仅包含环境的几何拓扑结构(像传统地图一样有节点和连接关系),还为每个关键地点赋予了丰富的语义标签(例如:“这是一个用于休息的灰色沙发”、“这是A-001号门”)

这使得地图既能用于路径规划,也能理解高级语义。

资讯配图

② 两阶段定位:

粗定位:

模型先分析当前图像,识别出其中的语义地标(如沙发、门牌),然后在地图库中搜索匹配这些地标描述的区域,快速缩小可能的位置范围。

精定位:

在粗定位选出的几个候选地点附近,模型会进行更精细的图像对比和推理,最终输出一个精确的6自由度位姿(位置和朝向)

③ 模型训练:

基于Qwen2.5-VL大模型,采用监督微调(SFT) 和强化学习(GRPO) 结合的方式训练。强化学习的引入显著提升了模型的泛化能力和数据利用效率,使其在未见过的新环境中(如从仓库切换到家庭环境)也能表现优异(零样本能力)。

(2)Astra-Local(局部战术小脑)

接收来自多相机的图像、IMU、轮速计等传感器数据,实时输出局部避障路径和精确的里程计信息。

① 4D时空编码器:

这是Astra-Local的“眼睛”。它通过自监督学习方式预训练,能将从多相机、多帧图像中提取的2D特征,直接构建成一种时空一致的4D体素特征(可理解为对周围环境及其动态变化的稠密编码)

这种方式无需昂贵的3D标注数据,成本效益极高。这个编码器不仅能感知当前环境,还能预测未来几秒的环境状态,为规划提供前瞻性信息。

资讯配图

② 规划头:

采用流匹配(Flow Matching) ,根据4D特征、子目标点和机器人状态,生成平滑、多样的局部轨迹。

其核心创新是提出了掩码ESDF损失函数。该损失能有效引导模型生成远离障碍物的轨迹,同时不会偏离全局目标方向。实验表明,该损失能大幅降低碰撞率,且几乎不增加计算开销。

③ 里程计头:

采用Transformer架构,巧妙地融合了视觉4D特征、IMU和轮速计数据。

这种多传感器融合策略弥补了单一传感器的不足,相比纯视觉方法,能提供更稳定、更精确的相对位姿估计,显著降低了运动估计的累积误差。

实验结果与性能

Astra系统已在真实机器人上部署和测试,覆盖仓库、办公楼和家庭等多种室内环境。

仓库:84.2%在仓库中,部分失败源于启动位置缺乏显著地标导致自定位失败,若排除这些极端点,成功率可升至91.2%。

办公楼:成功率高达99.1%。

资讯配图

资讯配图

(1)在目标定位和自定位任务上成功率极高(>98%)。

(2)远超传统视觉地点识别(VPR)方法:

细节捕捉能力更强(能识别门牌号等细微特征)、对视角变化更鲁棒、定位精度更高。

(3)展现出强大的零样本泛化能力:

在仅使用仓库和办公室数据训练后,直接用于家庭环境,定位精度仍超过80%,经少量数据微调后可达到91.1%。

资讯配图

(4)强化学习(GRPO)的加入显著提升了泛化性和数据效率。

资讯配图

(1)规划方面:

流匹配(FM)方法在轨迹质量和效率上优于其他生成方法(如ACT、Diffusion Policy)。新提出的掩码ESDF损失有效将碰撞率降低了约30%-50%

资讯配图

(2)里程计方面:

多传感器融合的Transformer方案将轨迹误差从基线方法的5.46%降低到了1.92%,精度提升显著。

资讯配图

(3)4D编码器:

其预训练权重能显著提升下游任务(如3D占据栅格预测)的性能,且其预测未来环境的能力有助于规划更安全的路径。

资讯配图

小结

Astra引入创新的双模型架构:

对于这一架构来说,探索更高效的地图压缩表示方法以保留更多语义;从单帧定位升级为主动探索和多帧时序推理,以应对无特征或高度重复的极端环境。

对于这一架构来说,持续提升模型在分布外(OOD)场景的鲁棒性,以减少对后备传统规划器的依赖;计划引入指令跟随能力,使机器人能更好地在动态、人机共融的环境中与人类交互。

Astra的成功标志着大型基础模型(LLM/VLM)与经典机器人技术深度融合的巨大潜力,为迈向真正通用的移动机器人迈出了坚实的一步。

资讯配图

Cogniplan

而接下来我们将介绍新加坡国立大学&同济大学在CoRL25的最新工作——CogniPlan,它通过生成式预测模型,像人类一样构建认知地图,推断未知区域的布局,并在多重假设中做出最优路径决策。

背景

路径规划是机器人的一项基本功能,它使移动机器人能够计算出到达指定目标的有效路径来完成任务。然而,在实际场景中,环境通常是事先未知的,这给决策带来了固有的挑战。

这项工作侧重于两个基本的耦合任务:自主探索和点目标导航,其中机器人必须在未知环境中规划,要么完全绘制空间地图,要么通过最短的可能路径到达特定目标。

在这种不确定性下进行有效推理,机器人必须基于部分且动态更新的地图信念行动,同时评估潜在信息增益,因为一些表面相似的选择可能带来截然不同的长期结果

资讯配图

受到人类在导航中构建“认知地图”的能力启发,作者提出了 CogniPlan:一个由多种可能布局预测引导的全学习型路径规划框架

整体框架

该框架首先采用轻量化 Wasserstein 生成对抗网络(WGAN) 在真实布局类型的条件下生成多种可能预测,捕捉布局不确定性,并输出二值化的自由空间/障碍物地图。

资讯配图

在前向推理时,通过输入多组布局条件向量生成多假设预测,每个假设对应部分观测环境的不同结构推测。

随后,CogniPlan 的图注意力网络利用这些假设进行推理,结合不确定性与信息增益,实时决定下一步的探索或导航目标点

条件生成式图像修补

只要能生成一组多样化的布局预测,即便单次预测不完全准确。

多样且合理的布局预测也可以帮助规划器(planner)更好地权衡探索(exploration) 和利用(exploitation),并进行更长远(non-myopic)的路径规划。

资讯配图

作者在三类地图数据集(房间、隧道、室外)上训练了带梯度惩罚的 Wasserstein GAN。每个样本配有真实布局类型的条件向量(采用 one-hot 编码)。

该条件向量被扩展到与输入地图相同的空间尺寸,并与机器人的占据地图信念及未知区域掩码拼接后输入生成器。生成器输出预测的自由空间与障碍物分布。

资讯配图

生成器的损失函数包含一个对抗损失(来自判别器)和三个重构损失项:

① 整个预测图的L1损失。

② 使用空间折扣掩码加权的L1损失。该掩码给靠近已知区域的像素分配更高权重,因为这些区域的不确定性更低,且对机器人可通行性更为关键。

③ Dice损失(F1-score),用于衡量预测区域与真实值之间的重叠精度

资讯配图

④ 推理与不确定性量化

生成器参数量<0.35M,这使得它即使在CPU上运行也能进行实时多次前向推理以进行不确定性估计。

条件生成式图像修补不确定性感知图规划(Uncertainty-Guided Planner)

在预测布局中均匀采样节点并建立可见性边。节点特征包含:

① 是否位于已知/预测区域;

② 自由概率(多预测平均);

③ 前沿效用(可观测前沿数归一化);

④ 引导标记(是否位于至最近前沿的最短路径上)。

导航任务中额外引入朝向目标的方向向量。

基于图注意力的策略网络,由编码器和解码器组成:

编码器:通过多层掩码自注意力聚合邻居节点信息,获得全局上下文;

解码器:以上一步机器人位置为查询,通过注意力选择下一个航点。

结构与策略网络相同,但输出 Q 值,用于策略优化。训练中采用特权学习,将真实环境图作为输入,提升值函数估计精度。

训练流程

生成模型训练数据:在 Dungeon 环境中生成 3000 张随机地图,均匀覆盖三类布局。

探索规划器训练:在 6000 张地图上训练,利用 SAC 算法,节点采样间隔 9px,连边半径 26px。

导航规划器训练:在 2000 张地图上训练,设定起点与目标。

条件向量集合:通常采用 7 个布局条件向量。

资讯配图

实验结果(Experiments)

资讯配图

(1)探索任务

在 150 张未见过的地图上评估(房间/隧道/室外各 50 张)。与NBVP、TARE、ARiADNE+、Inpaint+TARE 等对比。

结论:CogniPlan 平均路径长度 306.4m,较次优方法缩短约 7–17.7%;在隧道与室外场景中优势尤为明显,表现为更少回溯与更连贯的路径。

(2)导航任务

在 100 张地图上评估,对比 BIT*、DLite、CA、Inpaint+A

结论:CogniPlan 平均路径长度 222.1m,优于大多数基线,并略超接近最优的 D*Lite。

(3)多预测数量影响

当预测数从 1 增加到 4 或 7 时,性能显著提升,但收益逐渐饱和,说明少量多样化预测已足够。

资讯配图

零样本评估:与 ARiADNE+ 和 MapEx 对比。

早期探索MapEx 因直接最大化信息增益而占优。

后期覆盖率 >90%CogniPlan 保持线性增长,避免冗余路径,整体优于基线。

鲁棒性测试在不同初始位置下,CogniPlan 平均路径长度和标准差均最低,表明全局一致性更强。

在 30m×10m 实验室中部署,机器人配备 Livox Mid-360 激光雷达,最大速度 0.75 m/s。

平均探索时间约 6 分钟,路径长度约 100m。预测布局能实时辅助规划,轨迹平滑无明显回溯。

资讯配图

中尺度场景(54×34m):与 Frontier、TDLE、TARE、HPHS 对比,CogniPlan 平均路径最短(170.9m),效率最高。

大尺度场景(130×100m):与 DSVP、TARE 对比,CogniPlan 探索体积效率提升至 5.25 m³/m,显著优于基线。

资讯配图

资讯配图

总结

Astra与CogniPlan虽然源自不同的技术路径,一个专注于视觉-语言多模态融合,一个致力于空间布局生成与图注意力规划。但它们共同指向——

构建具备人类式认知能力的自主导航系统。

无论是通过语言理解环境,还是通过生成式预测推断未知,多模态推理都是实现真正智能导航的必经之路。

Astra让机器人“听懂人话、看懂世界”,CogniPlan让机器人“想得远、走得稳”。

它们的结合,将为下一代具身智能系统提供可解释、可推理、可泛化的导航能力,最终让机器人在复杂、动态、未知的环境中,像人一样自由而高效地行动。

编辑|无意

审编|具身君



Ref:

1. Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning

2. CogniPlan: Uncertainty-Guided Path Planning with Conditional Generative Layout Prediction


工作投稿|商务合作|转载

:SL13126828869(微信号)

>>>现在成为星友,特享99元/年<<<

资讯配图

资讯配图

【具身宝典】具身智能主流技术方案是什么?搞模仿学习,还是强化学习?看完还不懂具身智能中的「语义地图」,我吃了!你真的了解无监督强化学习吗?3 篇标志性文章解读具身智能的“第一性原理”解析|具身智能:大模型如何让机器人实现“从冰箱里拿一瓶可乐”?盘点 | 5年VLA进化之路,45篇代表性工作!它凭什么成为具身智能「新范式」?动态避障技术解析!聊一聊具身智能体如何在复杂环境中实现避障


【技术深度】具身智能30年权力转移:谁杀死了PID?大模型正在吃掉传统控制论的午餐……全面盘点:机器人在未知环境探索的3大技术路线,优缺点对比、应用案例!照搬=最佳实践?分享真正的 VLA 微调高手,“常用”的3大具身智能VLA模型!机器人开源=复现地狱?这2大核武器级方案解决机器人通用性难题,破解“形态诅咒”!视觉-语言-导航(VLN)技术梳理:算法框架、学习范式、四大实践盘点:17个具身智能领域核心【数据集】,涵盖从单一到复合的 7 大常见任务类别90%机器人项目栽在本地化?【盘点】3种经典部署路径,破解长距自主任务瓶颈!VLA模型的「核心引擎」:盘点5类核心动作Token,如何驱动机器人精准操作?


【先锋观点】周博宇 | 具身智能:一场需要谦逊与耐心的科学远征许华哲:具身智能需要从ImageNet做起吗?独家|ICRA冠军导师、最佳论文获得者眼中“被低估但潜力巨大”的具身智能路径独家解读 | 从OpenAI姚顺雨观点切入:强化学习终于泛化,具身智能将不只是“感知动作”人形机器人赛道:“爆单”是假,“饥饿”是真。


【非开源代码复现】非开源代码复现 | 首个能抓取不同轻薄纸类的触觉灵巧手-臂系统PP-Tac(RSS 2025)独家复现实录|全球首个「窗口级」VLN系统:实现空中无人机最后一公里配送不碰真机也不仿真?(伪代码)伯克利最新:仅用一部手机,生成大规模高质量机器人训练数据!

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?‍

欢迎关注【深蓝具身智能】👇


资讯配图

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果。

投稿|商务合作|转载:SL13126828869(微信)


资讯配图

点击收藏并推荐本文


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
导航 机器人
more
传统SLAM的定位导航和具身目标导航有什么区别?
告别“鬼打墙”!中国团队让机器人导航更“丝滑”,效率提升24.5% | 卓越亮点
一文解码百度地图AI导航“小度想想”
具身目标导航/视觉语言导航/点导航工作汇总!
ICRA-2025 | 低成本、高隐私具身导航!Open-Nav:探索开源LLMs零样本视觉语言导航能力
无人机飞行不迷路:解析惯性导航系统与磁力计的协同作战!推荐几款传感器
NoMaD:基于目标掩码的统一扩散导航与探索策略
生物医药中试“服务菜单”发布,40家平台精准“导航”|科创天府·智汇蓉城
哈工大提出UAV-ON:面向空中智能体的开放世界目标导航基准测试
巨大进步!李飞飞“空间智能”最新成果,单个图像生成大规模3D世界,更持久、可导航、可控制
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号