NoMaD:基于目标掩码的统一扩散导航与探索策略

Xbot具身知识库 2025-09-10 17:34
资讯配图


项目名称:NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration

论文链接:https://arxiv.org/pdf/2310.07896

资讯配图


1. 研究背景

ENTERPRISE


在未知环境中实现机器人自主导航,需要同时解决两类问题:

  • 目标导向导航(goal-conditioned navigation):机器人能够识别并到达特定目标位置。

  • 无目标探索(goal-agnostic exploration):在没有明确目标时,机器人能够有效搜索环境,避免碰撞并发现新目标。

传统方法通常将这两者分离,依赖多模型架构(如高层子目标生成+低层导航控制),导致:

  • 系统复杂度高,维护困难。

  • 对未知环境适应性差。

  • 对算力需求大,不适合部署在资源受限平台上。

NoMaD (Goal Masked Diffusion Policies) 通过统一的扩散策略模型,将两类任务整合到一个框架中。其核心思想是通过目标掩码机制(Goal Masking)控制是否在推理过程中使用目标信息,从而实现在单一模型中同时支持目标导航与自主探索。实验表明,NoMaD 在多个真实环境中取得了优于现有方法的性能,且模型轻量(仅19M参数),可部署于Jetson Orin等嵌入式设备。

资讯配图


2. 核心创新点

ENTERPRISE


资讯配图

2.1. 统一扩散策略:将两类任务统一动作扩散模型,以同时进行建模目标导航与无目标探索行为。

扩散模型通过对动作序列的噪声进行迭代去噪,生成多模态的动作分布。这种设计避免了传统方法中多模型切换带来的开销,同时保持了对复杂决策场景的适应能力。


2.2. 目标掩码机制(Goal Masking)

目标掩码机制是NoMaD实现统一建模的关键。具体实现如下:

训练阶段:50%样本带目标图像,50%无目标输入,并通过二值掩码m控制目标信息是否参与注意力计算。

资讯配图

其中m = 0表示使用目标信息,m = 1表示屏蔽目标信息。

推理阶段:可动态选择有目标(m = 1)导向导航或无目标(m = 0)导向导航模式,实现任务自适应切换。

2.3. 多模态动作建模

扩散模型能够生成多峰动作分布,这在机器人导航中尤为重要。例如,在十字路口,机器人可能需要考虑直行、左转或右转多种选择。传统方法往往只能输出单一模式的动作,而扩散模型通过对噪声空间的探索,能够在多决策分支(如路口)下保持多种可能性的输出,避免策略僵化。

2.4. 高效轻量化

NoMaD模型仅包含19M参数,远低于Subgoal Diffusion的335M参数。这种轻量化设计使其能够在Jetson Orin等嵌入式设备上实时运行,为实际部署提供了可能。

3. 技术架构与实现

ENTERPRISE


3.1. 输入表示:

历史观测:最近5帧RGB图像(96×96×3),通过EfficientNet-B0提取特征。

3.2. 特征编码:

EfficientNet-B0提取图像特征。

Transformer聚合时序特征,生成7个256维token。

3.3. 目标掩码机制:

目标掩码通过修改Transformer的注意力机制实现。具体来说,在计算注意力权重时,通过掩码控制目

资讯配图

3.4. 扩散策略生成器:

扩散策略生成器采用条件U-Net结构预测动作噪声,Square Cosine调度,10步去噪,生成未来动作序列。

扩散过程遵循下列公式

资讯配图

其中  

资讯配图

表示:在推理(采样) 时,如何通过迭代去噪,从纯噪声中生成一个干净的动作序列。这个过程可以类比于一个雕塑家先拿到一块混沌的大理石(噪声),然后一步步凿掉多余的部分,最终得到精美的雕塑(最优动作序列)。

3.5. 训练策略:

  • 数据集:GNM + SACSoN,涵盖100+小时真实机器人轨迹。

  • 损失函数:

    资讯配图
    其中
    资讯配图
    资讯配图

  • 优化器:AdamW,学习率10^(-4),余弦调度+ warmup

4. 实验与结果分析

ENTERPRISE


在6个真实室内外环境中进行测试,环境特点包括:

  • 动态障碍物

  • 复杂光照条件

  • 未知地图布局

  • 长走廊和开阔区域交替

资讯配图

4.2. 对比方法

  • Subgoal Diffusion:当前SOTA方法,使用335M参数的图像扩散模型生成子目标

  • Autoregressive Policy:自回归策略,使用离散化动作空间

  • ViNT:视觉导航Transformer,专为目标导航设计

  • VIB:变分信息瓶颈方法,用于探索任务

4.3. 主要结果:基准性能对比 (Benchmarking Performance)

目的:在未知环境探索 (Exploration) 和已知环境目标导航 (Navigation) 两个任务上,全面对比NoMaD与其他5种先进方法的性能。

指标解读:

  • Params (参数量):模型的大小。参数量越多,通常计算开销和内存占用越大,越难部署在资源受限的机器人上。

  • Exploration Success:在未知环境中,机器人成功找到随机放置的目标的比率。比率越高,探索能力越强。

  • Exploration Coll. (碰撞次数):在探索过程中,平均每次试验发生碰撞的次数。次数越少,安全性越高。

  • Navigation Success:在已知环境(已构建拓扑地图)中,机器人根据给定目标图像成功导航到目的地的比率。比率越高,目标导航能力越强。

资讯配图

结果分析:

1. 性能领先 (Performance):

  • 探索任务:NoMaD取得了98% 的成功率,远高于其他所有方法。最接近的竞争对手Subgoal Diffusion只有77%,这意味着NoMaD将探索失败率降低了近90% ((77%-2%) / (100%-77%) ≈ 89%)。

  • 安全性与鲁棒性:NoMaD的碰撞次数仅为0.2,遥遥领先。这表明其扩散策略生成的动不仅有效,而且非常安全、平滑,能更好地避免碰撞。

  • 导航任务:NoMaD与最强的基线(Random Subgoals和Subgoal Diffusion)持平(90%),证明其在目标导向任务上同样顶级。

2. 方法对比分析:

  • VIB & Masked ViNT:性能很差,证明难以处理复杂、多模态的动作分布。

  • Autoregressive:性能尚可(90%),但碰撞率高(2.0),且论文提到其动作因离散化而显得“jerky”(急促不平滑)。

  • Random Subgoals:导航性能好(因为它使用了一个强大的ViNT策略),但探索性能一般(70%),因为它随机提出子目标,效率低下。

  • Subgoal Diffusion:强大的基线,但生成高维图像子目标的计算成本极高,且探索性能仍显著低于NoMaD。

结论: NoMaD在性能、安全性和效率三个方面实现了最优,是当前最好的统一导航与探索模型。

4.4. 消融实验表明

(1)统一策略 vs. 专用策略 (Unified v/s Dedicated Policies)

目的:通过消融实验,验证统一模型(用Goal Masking同时训练两种行为)的性能是否媲美两个独立训练的专用模型。

资讯配图

结果分析:

1. 专用模型性能:

  • Diffusion Policy [31]:一个专门为探索设计的扩散模型(无目标条件)。它在探索任务上达到了98%的成功率,是探索任务的性能上限。

  • ViNT Policy [3]:一个专门为目标导航设计的模型。它在导航任务上达到了92%的成功率,是导航任务的性能上限。

2. 统一模型性能:

  • NoMaD:单个模型,在探索任务上达到了98%,与专用探索模型持平;在导航任务上达到了92%,与专用导航模型持平。

核心结论:

  • 这个表格回答了论文的一个核心问题:能否用一个模型做好两件事?

  • 结果表明,可以。通过Goal Masking机制,一个统一的模型可以学到两种行为,且性能没有丝毫损失。这意味着:

  • 共享表征:模型学习到了两种任务之间共享的基础表征(如障碍物避免、场景几何理解)。

  • 无性能惩罚:统一设计不会因为任务之间的干扰而导致性能下降。

  • 部署简化:无需维护和切换两个模型,简化了系统架构和部署流程。

(2)表 III: 视觉编码器与目标掩码消融实验 (Visual Encoder and Goal Masking)

目的:通过消融实验,分析不同视觉编码器架构和目标融合策略对模型性能的影响,从而证明NoMaD所采用的ViNT编码器 + 注意力掩码是最优设计。

视觉编码器对比:

  • Late Fusion CNN:成功率52%,碰撞3.2次

  • Early Fusion CNN:成功率68%,碰撞1.5次

  • ViT:成功率32%,碰撞2.5次

  • ViNT + Goal Masking:成功率98%,碰撞0.2次

资讯配图

目标掩码必要性:

移除目标掩码后,模型在探索任务上的性能下降35%,证明目标掩码机制Goal Masking对统一建模至关重要。

5. 理论意义与未来方向

ENTERPRISE


  • 理论意义:

  • 统一策略证明了在泛化性与效率之间的平衡。通过扩散模型避免传统强化学习/规划中复杂的子任务设计。

  • 未来方向:

  • 多模态输入:语言指令、地图坐标。

  • 语义探索:利用环境先验知识指导探索。

  • 在线自适应:结合强化学习或安全约束,进一步提升鲁棒性。

6. 复现与工程实践要点

ENTERPRISE


6.1. 环境准备:

  • 硬件:RTX3090+,Jetson Orin可部署

  • 依赖:PyTorch ≥1.13, torchvision≥0.14, timm≥0.6, diffusers≥0.16

6.2. 关键参数:

  • 批量大小:256

  • 训练轮数:30

  • 学习率:

  • 目标掩码概率:0.5

  • 扩散步数:10

6.3. 训练技巧:

  • 随机Goal Masking。

  • Topological Graph,规划辅助长程导航。

  • 学习率warmup + AdamW,防止扩散训练不稳定。

7. 总结与讨论

ENTERPRISE


NoMaD验证了“一个轻量的统一模型,能替代多模型架构完成复杂导航与探索任务”。通过目标掩码机制和扩散策略,它在保持高性能的同时大幅降低了模型复杂度和计算需求。这项工作不仅在实际部署中表现出色,也为未来机器人自主系统的设计提供了新的思路——一个模型,多种能力。

统一策略为未来机器人自主性提供了可扩展的技术路线,也启发了在更多任务(操控、交互)中探索统一架构的潜力。

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
导航
more
低空+”融合加速:AI大模型、卫星互联网、北斗导航如何赋能万亿产业新赛道
从边界线到 SLAM,割草机器人导航定位的下一个关键技术是它?
生物医药中试“服务菜单”发布,40家平台精准“导航”|科创天府·智汇蓉城
美军开测量子惯导——无需GPS实现精确导航!
机器人导航“质的飞跃”!字节&NUS:2篇标志性双系统架构解析,重塑自主导航技术范式
新车:新款奕派008售价17.36万起;比亚迪新车卖130万;小米SU7上线截图导航功能;小鹏新P7外观细节公布
星图低空云受邀参加中国卫星导航定位协会成立30年暨北斗+低空经济商业航天大会
Meta“手滑”曝光4款智能眼镜,带屏、HUD导航、隔空打字腕带,售价或超5000元
哈工深提出UAV-ON:开放世界空中智能体目标导向导航基准测试
具身机器人公司无界智慧招募操作算法、导航算法、运动控制等方向(社招+实习)
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号