NoMaD：基于目标掩码的统一扩散导航与探索策略

项目名称：NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration

论文链接：https://arxiv.org/pdf/2310.07896

1. 研究背景

ENTERPRISE

在未知环境中实现机器人自主导航，需要同时解决两类问题：

目标导向导航（goal-conditioned navigation）：机器人能够识别并到达特定目标位置。
无目标探索（goal-agnostic exploration）：在没有明确目标时，机器人能够有效搜索环境，避免碰撞并发现新目标。

传统方法通常将这两者分离，依赖多模型架构（如高层子目标生成+低层导航控制），导致：

系统复杂度高，维护困难。
对未知环境适应性差。
对算力需求大，不适合部署在资源受限平台上。

NoMaD (Goal Masked Diffusion Policies) 通过统一的扩散策略模型，将两类任务整合到一个框架中。其核心思想是通过目标掩码机制（Goal Masking）控制是否在推理过程中使用目标信息，从而实现在单一模型中同时支持目标导航与自主探索。实验表明，NoMaD 在多个真实环境中取得了优于现有方法的性能，且模型轻量（仅19M参数），可部署于Jetson Orin等嵌入式设备。

2. 核心创新点

ENTERPRISE

2.1. 统一扩散策略：将两类任务统一动作扩散模型，以同时进行建模目标导航与无目标探索行为。

扩散模型通过对动作序列的噪声进行迭代去噪，生成多模态的动作分布。这种设计避免了传统方法中多模型切换带来的开销，同时保持了对复杂决策场景的适应能力。

2.2. 目标掩码机制（Goal Masking）

目标掩码机制是NoMaD实现统一建模的关键。具体实现如下：

训练阶段：50%样本带目标图像，50%无目标输入，并通过二值掩码m控制目标信息是否参与注意力计算。

其中m = 0表示使用目标信息，m = 1表示屏蔽目标信息。

推理阶段：可动态选择有目标（m = 1）导向导航或无目标（m = 0）导向导航模式，实现任务自适应切换。

2.3. 多模态动作建模

扩散模型能够生成多峰动作分布，这在机器人导航中尤为重要。例如，在十字路口，机器人可能需要考虑直行、左转或右转多种选择。传统方法往往只能输出单一模式的动作，而扩散模型通过对噪声空间的探索，能够在多决策分支（如路口）下保持多种可能性的输出，避免策略僵化。

2.4. 高效轻量化

NoMaD模型仅包含19M参数，远低于Subgoal Diffusion的335M参数。这种轻量化设计使其能够在Jetson Orin等嵌入式设备上实时运行，为实际部署提供了可能。

3. 技术架构与实现

ENTERPRISE

3.1. 输入表示：

历史观测：最近5帧RGB图像（96×96×3），通过EfficientNet-B0提取特征。

3.2. 特征编码：

EfficientNet-B0提取图像特征。

Transformer聚合时序特征，生成7个256维token。

3.3. 目标掩码机制：

目标掩码通过修改Transformer的注意力机制实现。具体来说，在计算注意力权重时，通过掩码控制目

资讯配图

3.4. 扩散策略生成器：

扩散策略生成器采用条件U-Net结构预测动作噪声，Square Cosine调度，10步去噪，生成未来动作序列。

扩散过程遵循下列公式

其中

表示：在推理（采样）时，如何通过迭代去噪，从纯噪声中生成一个干净的动作序列。这个过程可以类比于一个雕塑家先拿到一块混沌的大理石（噪声），然后一步步凿掉多余的部分，最终得到精美的雕塑（最优动作序列）。

3.5. 训练策略：

数据集：GNM + SACSoN，涵盖100+小时真实机器人轨迹。
损失函数：
其中

优化器：AdamW，学习率10^(-4)，余弦调度+ warmup

4. 实验与结果分析

ENTERPRISE

在6个真实室内外环境中进行测试，环境特点包括：

动态障碍物
复杂光照条件
未知地图布局
长走廊和开阔区域交替

4.2. 对比方法

Subgoal Diffusion：当前SOTA方法，使用335M参数的图像扩散模型生成子目标
Autoregressive Policy：自回归策略，使用离散化动作空间
ViNT：视觉导航Transformer，专为目标导航设计
VIB：变分信息瓶颈方法，用于探索任务

4.3. 主要结果：基准性能对比 (Benchmarking Performance)

目的：在未知环境探索 (Exploration) 和已知环境目标导航 (Navigation) 两个任务上，全面对比NoMaD与其他5种先进方法的性能。

指标解读：

Params (参数量)：模型的大小。参数量越多，通常计算开销和内存占用越大，越难部署在资源受限的机器人上。
Exploration Success：在未知环境中，机器人成功找到随机放置的目标的比率。比率越高，探索能力越强。
Exploration Coll. (碰撞次数)：在探索过程中，平均每次试验发生碰撞的次数。次数越少，安全性越高。
Navigation Success：在已知环境（已构建拓扑地图）中，机器人根据给定目标图像成功导航到目的地的比率。比率越高，目标导航能力越强。

结果分析：

1. 性能领先 (Performance)：

探索任务：NoMaD取得了98% 的成功率，远高于其他所有方法。最接近的竞争对手Subgoal Diffusion只有77%，这意味着NoMaD将探索失败率降低了近90% ((77%-2%) / (100%-77%) ≈ 89%)。
安全性与鲁棒性：NoMaD的碰撞次数仅为0.2，遥遥领先。这表明其扩散策略生成的动不仅有效，而且非常安全、平滑，能更好地避免碰撞。
导航任务：NoMaD与最强的基线（Random Subgoals和Subgoal Diffusion）持平（90%），证明其在目标导向任务上同样顶级。

2. 方法对比分析：