
项目名称:NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration
论文链接:https://arxiv.org/pdf/2310.07896

1. 研究背景
ENTERPRISE
在未知环境中实现机器人自主导航,需要同时解决两类问题:
目标导向导航(goal-conditioned navigation):机器人能够识别并到达特定目标位置。
无目标探索(goal-agnostic exploration):在没有明确目标时,机器人能够有效搜索环境,避免碰撞并发现新目标。
传统方法通常将这两者分离,依赖多模型架构(如高层子目标生成+低层导航控制),导致:
系统复杂度高,维护困难。
对未知环境适应性差。
对算力需求大,不适合部署在资源受限平台上。
NoMaD (Goal Masked Diffusion Policies) 通过统一的扩散策略模型,将两类任务整合到一个框架中。其核心思想是通过目标掩码机制(Goal Masking)控制是否在推理过程中使用目标信息,从而实现在单一模型中同时支持目标导航与自主探索。实验表明,NoMaD 在多个真实环境中取得了优于现有方法的性能,且模型轻量(仅19M参数),可部署于Jetson Orin等嵌入式设备。

2. 核心创新点
ENTERPRISE

2.1. 统一扩散策略:将两类任务统一动作扩散模型,以同时进行建模目标导航与无目标探索行为。
扩散模型通过对动作序列的噪声进行迭代去噪,生成多模态的动作分布。这种设计避免了传统方法中多模型切换带来的开销,同时保持了对复杂决策场景的适应能力。
2.2. 目标掩码机制(Goal Masking)
目标掩码机制是NoMaD实现统一建模的关键。具体实现如下:
训练阶段:50%样本带目标图像,50%无目标输入,并通过二值掩码m控制目标信息是否参与注意力计算。

其中m = 0表示使用目标信息,m = 1表示屏蔽目标信息。
推理阶段:可动态选择有目标(m = 1)导向导航或无目标(m = 0)导向导航模式,实现任务自适应切换。
2.3. 多模态动作建模
扩散模型能够生成多峰动作分布,这在机器人导航中尤为重要。例如,在十字路口,机器人可能需要考虑直行、左转或右转多种选择。传统方法往往只能输出单一模式的动作,而扩散模型通过对噪声空间的探索,能够在多决策分支(如路口)下保持多种可能性的输出,避免策略僵化。
2.4. 高效轻量化
NoMaD模型仅包含19M参数,远低于Subgoal Diffusion的335M参数。这种轻量化设计使其能够在Jetson Orin等嵌入式设备上实时运行,为实际部署提供了可能。
3. 技术架构与实现
ENTERPRISE
3.1. 输入表示:
历史观测:最近5帧RGB图像(96×96×3),通过EfficientNet-B0提取特征。
3.2. 特征编码:
EfficientNet-B0提取图像特征。
Transformer聚合时序特征,生成7个256维token。
3.3. 目标掩码机制:
目标掩码通过修改Transformer的注意力机制实现。具体来说,在计算注意力权重时,通过掩码控制目
3.4. 扩散策略生成器:
扩散策略生成器采用条件U-Net结构预测动作噪声,Square Cosine调度,10步去噪,生成未来动作序列。
扩散过程遵循下列公式

其中

表示:在推理(采样) 时,如何通过迭代去噪,从纯噪声中生成一个干净的动作序列。这个过程可以类比于一个雕塑家先拿到一块混沌的大理石(噪声),然后一步步凿掉多余的部分,最终得到精美的雕塑(最优动作序列)。
3.5. 训练策略:
数据集:GNM + SACSoN,涵盖100+小时真实机器人轨迹。
损失函数:
其中
优化器:AdamW,学习率10^(-4),余弦调度+ warmup
4. 实验与结果分析
ENTERPRISE
在6个真实室内外环境中进行测试,环境特点包括:
动态障碍物
复杂光照条件
未知地图布局
长走廊和开阔区域交替

4.2. 对比方法
Subgoal Diffusion:当前SOTA方法,使用335M参数的图像扩散模型生成子目标
Autoregressive Policy:自回归策略,使用离散化动作空间
ViNT:视觉导航Transformer,专为目标导航设计
VIB:变分信息瓶颈方法,用于探索任务
4.3. 主要结果:基准性能对比 (Benchmarking Performance)
目的:在未知环境探索 (Exploration) 和已知环境目标导航 (Navigation) 两个任务上,全面对比NoMaD与其他5种先进方法的性能。
指标解读:
Params (参数量):模型的大小。参数量越多,通常计算开销和内存占用越大,越难部署在资源受限的机器人上。
Exploration Success:在未知环境中,机器人成功找到随机放置的目标的比率。比率越高,探索能力越强。
Exploration Coll. (碰撞次数):在探索过程中,平均每次试验发生碰撞的次数。次数越少,安全性越高。
Navigation Success:在已知环境(已构建拓扑地图)中,机器人根据给定目标图像成功导航到目的地的比率。比率越高,目标导航能力越强。

结果分析:
1. 性能领先 (Performance):
探索任务:NoMaD取得了98% 的成功率,远高于其他所有方法。最接近的竞争对手Subgoal Diffusion只有77%,这意味着NoMaD将探索失败率降低了近90% ((77%-2%) / (100%-77%) ≈ 89%)。
安全性与鲁棒性:NoMaD的碰撞次数仅为0.2,遥遥领先。这表明其扩散策略生成的动不仅有效,而且非常安全、平滑,能更好地避免碰撞。
导航任务:NoMaD与最强的基线(Random Subgoals和Subgoal Diffusion)持平(90%),证明其在目标导向任务上同样顶级。
2. 方法对比分析:
VIB & Masked ViNT:性能很差,证明难以处理复杂、多模态的动作分布。
Autoregressive:性能尚可(90%),但碰撞率高(2.0),且论文提到其动作因离散化而显得“jerky”(急促不平滑)。
Random Subgoals:导航性能好(因为它使用了一个强大的ViNT策略),但探索性能一般(70%),因为它随机提出子目标,效率低下。
Subgoal Diffusion:强大的基线,但生成高维图像子目标的计算成本极高,且探索性能仍显著低于NoMaD。
结论: NoMaD在性能、安全性和效率三个方面实现了最优,是当前最好的统一导航与探索模型。
4.4. 消融实验表明
(1)统一策略 vs. 专用策略 (Unified v/s Dedicated Policies)
目的:通过消融实验,验证统一模型(用Goal Masking同时训练两种行为)的性能是否媲美两个独立训练的专用模型。

结果分析:
1. 专用模型性能:
Diffusion Policy [31]:一个专门为探索设计的扩散模型(无目标条件)。它在探索任务上达到了98%的成功率,是探索任务的性能上限。
ViNT Policy [3]:一个专门为目标导航设计的模型。它在导航任务上达到了92%的成功率,是导航任务的性能上限。
2. 统一模型性能:
NoMaD:单个模型,在探索任务上达到了98%,与专用探索模型持平;在导航任务上达到了92%,与专用导航模型持平。
核心结论:
这个表格回答了论文的一个核心问题:能否用一个模型做好两件事?
结果表明,可以。通过Goal Masking机制,一个统一的模型可以学到两种行为,且性能没有丝毫损失。这意味着:
共享表征:模型学习到了两种任务之间共享的基础表征(如障碍物避免、场景几何理解)。
无性能惩罚:统一设计不会因为任务之间的干扰而导致性能下降。
部署简化:无需维护和切换两个模型,简化了系统架构和部署流程。
(2)表 III: 视觉编码器与目标掩码消融实验 (Visual Encoder and Goal Masking)
目的:通过消融实验,分析不同视觉编码器架构和目标融合策略对模型性能的影响,从而证明NoMaD所采用的ViNT编码器 + 注意力掩码是最优设计。
视觉编码器对比:
Late Fusion CNN:成功率52%,碰撞3.2次
Early Fusion CNN:成功率68%,碰撞1.5次
ViT:成功率32%,碰撞2.5次
ViNT + Goal Masking:成功率98%,碰撞0.2次

目标掩码必要性:
移除目标掩码后,模型在探索任务上的性能下降35%,证明目标掩码机制Goal Masking对统一建模至关重要。
5. 理论意义与未来方向
ENTERPRISE
理论意义:
统一策略证明了在泛化性与效率之间的平衡。通过扩散模型避免传统强化学习/规划中复杂的子任务设计。
未来方向:
多模态输入:语言指令、地图坐标。
语义探索:利用环境先验知识指导探索。
在线自适应:结合强化学习或安全约束,进一步提升鲁棒性。
6. 复现与工程实践要点
ENTERPRISE
6.1. 环境准备:
硬件:RTX3090+,Jetson Orin可部署
依赖:PyTorch ≥1.13, torchvision≥0.14, timm≥0.6, diffusers≥0.16
6.2. 关键参数:
批量大小:256
训练轮数:30
学习率:
目标掩码概率:0.5
扩散步数:10
6.3. 训练技巧:
随机Goal Masking。
Topological Graph,规划辅助长程导航。
学习率warmup + AdamW,防止扩散训练不稳定。
7. 总结与讨论
ENTERPRISE
NoMaD验证了“一个轻量的统一模型,能替代多模型架构完成复杂导航与探索任务”。通过目标掩码机制和扩散策略,它在保持高性能的同时大幅降低了模型复杂度和计算需求。这项工作不仅在实际部署中表现出色,也为未来机器人自主系统的设计提供了新的思路——一个模型,多种能力。
统一策略为未来机器人自主性提供了可扩展的技术路线,也启发了在更多任务(操控、交互)中探索统一架构的潜力。
