WAM杀入导航了！首个WorldVLN，全面开源

点击下方卡片，关注“具身智能之心”公众号

作者丨Baining Zhao 等
编辑丨具身智能之心
本文只做学术分享，如有侵权，联系删文

更多干货，欢迎加入国内首个具身智能全栈学习社区：(戳我)，这里包含所有你想要的。

写在前面：人的空间感从何而来

视觉语言导航（Vision-Language Navigation, VLN）是空间智能的核心问题之一：智能体需要理解人类的自然语言指令，在三维环境中持续观察、行动，逐步完成导航指令。三维空中场景更具挑战性，不仅要识别目标、理解空间关系，还要在连续 3D 空间中控制前进、转向、升降，并处理视角快速变化带来的累积决策误差。

为实现通用泛化的VLN，现有工作关注基于LLM/VLM的 Vision-Language-Action（VLA）范式，构造“当前视觉观测 + 语言指令 → 动作“的映射，但其表现仍未达预期。

实际上，人在空间中移动时，对自身的行为是存在预期的，对应我们常说的空间感。虽然我们不会显式地把画面“脑补”出来，但会隐式地预判：如果我向前、左转、上升，接下来视角会如何变化？我是否会更接近目标？当前动作会不会让后续导航更容易？导航本质上可能不仅是映射问题，而是一个面向未来的隐式预测-动作问题。

基于这一思路，清华大学、山东大学等团队提出了 WorldVLN：首个面向VLN的自回归 World Action Model（WAM），并在空中导航这一具有挑战性的场景验证其有效性。

论文标题：WorldVLN: Autoregressive World Action Model for Aerial Vision-Language Navigation
项目主页：https://embodiedcity.github.io/WorldVLN/
arXiv：https://arxiv.org/abs/2605.15964
代码：https://github.com/EmbodiedCity/WorldVLN.code

Insights

WorldVLN 的核心思想是：不再直接从图像和指令映射得到动作，而是先预测由自身运动引起的短时域 latent world transition，再从中解码出 waypoint actions。简单来说，WorldVLN 做的是：

观察当前世界 → 预测接下来世界会如何变化 → 根据预测结果生成动作 → 执行动作后再用真实观测更新上下文。

WorldVLN 的核心 insights 如下：

闭环决策天然适合自回归世界建模。 VLN 本质上是一个部分可观测的序列决策过程：智能体根据最新观测持续调整动作，而动作又会反过来改变后续观测。相比一次性生成完整未来序列的 diffusion-based world model，自回归建模能在每次行动后接收真实观测并更新上下文，从而更好地抑制长程 rollout 中的误差累积。对于空中导航这类视角变化剧烈、空间位移显著的场景，observe-act-update 的闭环机制尤为关键。
原生自回归架构比 diffusion-to-AR 改造更适合 WAM。 现有自回归 WAM 通常先训练全序列 diffusion 世界模型，再通过 teacher-forcing 或 self-forcing 将其改造成自回归形式，以继承 diffusion backbone 的高质量视觉生成能力。但在导航任务中，关注的核心并不是生成逼真的未来图像，而是学习与动作决策相关的世界状态变化。因此，WorldVLN 直接基于原生自回归架构学习 latent world transition，避免了额外的 forcing 改造成本，也更自然地适配导航中的因果闭环。
从显式视频生成转向隐式世界状态预测。 空间导航需要的是对未来可行动世界状态的建模，而不一定是显式生成未来图像。不同于“先生成视频、再从视频中解码动作”的路线，WorldVLN 直接在 latent space 中预测短时域世界状态转移，并从该转移中解码 waypoint actions，从而将视频世界模型的时空预测能力更直接地转化为空间行动能力。
Action-aware GRPO 将世界预测与动作优化统一起来。 为了让模型学习到与动作生成和导航结果真正相关的表征，而不是停留在视觉重建或视频生成表征上，设计了首个面向 VLN 的自回归 WAM 强化学习后训练框架：Action-aware GRPO。它将动作执行后的导航反馈引入优化过程，使 latent world prediction 和 action decoding 能在统一的任务目标下共同提升。

Model Architecture

WorldVLN 的模型架构围绕一个核心问题展开：如何将视频生成模型的动态预测能力转化为空间导航中的可执行动作。具体来说，WorldVLN 采用一个预训练的 latent autoregressive video transformer 作为 backbone。在第 (t) 个决策时刻，模型已拥有由真实历史观测编码得到的 latent context。WorldVLN 会根据语言指令和当前历史上下文，自回归预测未来 (K) 步的 latent segment：

instruction + observation history → predicted latent world transition

在原始视频生成模型中，这个 predicted latent 通常会被解码成未来视频帧，用于视觉内容生成。但在 WorldVLN 中，我们将其建模为：由导航指令引导的短时域世界状态转移。因此，WorldVLN 将 predicted latent segment 输入到 action decoder 中，直接解码得到未来 (K) 步的 waypoint action sequence：

predicted latent world transition → waypoint actions

随后，无人机执行这段 waypoint actions，并从环境中获得新的真实 RGB 观测。WorldVLN 不会继续使用模型自预测的 latent 来滚动生成后续状态，而是将新获得的真实观测重新编码成 real latent，并用它替换模型预测的 latent，更新自回归上下文：

语言指令 + 真实观测上下文 → 预测 latent 世界转移 → 解码动作 → 执行动作 → 接收新 RGB 观测 → 编码真实 latent → 更新上下文 → 继续下一轮预测。

这种设计让模型不是在开环里一次性“想象完整未来”，而是在每个动作片段后都用真实观测校正自身的世界状态建模。对于空中导航这种视角变化大、累积误差强、需要持续空间对齐的任务，这种 autoregressive observe-act-update 机制尤其重要。

两阶段训练：从模仿学习到强化学习

为了把视频生成模型的时空预测先验真正转化为空间行动能力，这里设计了一个两阶段训练框架。先将“世界预测”和“动作解码”两个能力分别训练，再通过强化学习把它们统一到VLN目标下。

Stage 1：监督训练，让 latent world transition 变得 action-decodable

第一阶段主要解决两个问题：

如何让预训练视频 backbone 理解语言条件下的导航动态；
如何让预测出的 latent world transition 能够被解码成无人机动作。

具体来说，使用 instruction-video pairs 训练 video latent autoregressive backbone，使其学习语言指令条件下的导航视频动态；同时使用 video-trajectory pairs 训练 action decoder，让它从 latent world transition 中恢复专家 waypoint actions。

Stage 2：Action-aware GRPO，直接优化动作后果

仅靠监督学习，模型仍然容易停留在模仿专家轨迹的层面，且 backbone 难以学习到 action-aware representation。为进一步提升空间动作能力，这里提出 Action-aware Group Relative Policy Optimization（Action-aware GRPO）。这是首个专门面向自回归 WAM 的强化学习后训练方法。WorldVLN 在环境中进行在线自回归 rollout，按照真实推理时的方式不断执行：预测 latent transition → 解码动作 → 环境执行 → 获得新观测 → 更新上下文。

然后，从三个角度分别给动作片段分配奖励：

Trajectory reward：局部动作轨迹是否接近Ground Truth轨迹；
Task reward：最终是否更接近导航终点；
Reference reward：防止策略过度偏离原始 world-action prior。

同时，WorldVLN 还加入了 temporal decay weighting，让早期决策获得更高权重。因为在自回归导航中，越早的错误往往会影响越长的未来观测和后续动作。通过这种方式，Action-aware GRPO 不再只让模型学习“专家怎么做”，而是进一步学习：当前动作会如何改变未来世界，并最终影响导航是否成功。

实验结果：室外、室内双基准全面领先

在两个公开 Aerial VLN 基准上评估 WorldVLN：UAV-Flow（室外）和 IndoorUAV-VLA（室内）。在 UAV-Flow-Sim 上，WorldVLN 在两种指令设置下都取得了最优成功率，这说明 WorldVLN 不仅能处理固定模板指令，也能泛化到更开放的语言表达。更重要的是，它在需要精确空间控制的任务上表现尤其突出，例如 Approach、Land、Move、Shift 和 Ascend/Descend。在 IndoorUAV-VLA 上，相比最强 VLA baseline，WorldVLN 的成功率是其1.5倍；且在越困难的任务上，优势越明显。

Further Research

1. WAM 是否比 VLA 泛化性更强？

进一步对比WAM与VLA的训练曲线可知：在相同数据和算力下，WorldVLN 在更少训练步数下达到更高成功率，说明 WAM 范式为 aerial VLN 提供了更有效的学习结构。

2. Why 自回归？

全序列预测容易出现 long-horizon latent drift：越往后预测，语义和空间结构越不稳定。自回归更新则不同，每执行一个动作片段后，模型都会接收新的真实观测，并把它编码回上下文中，从而持续校正后续预测。实验显示，自回归 world-action modeling 在 UAV-Flow 和 IndoorUAV 上都带来了 5.7+ 个百分点的成功率提升。

3. Action-aware GRPO 学到了什么？

在 Stage-1 SFT 已经接近饱和后，Action-aware GRPO 还能带来超过 10 个百分点的额外提升。定性结果也显示，加入 Action-aware GRPO 后，模型能更好地关注动作相关的表征。

真机零样本部署

除了仿真实验，还将 WorldVLN 部署到了真实四旋翼无人机平台上。WorldVLN 的高层决策只依赖：第一视角 RGB 观测 + 自然语言指令。实验结果显示，WorldVLN 在只使用Benchmark数据后训练的情况下，能零样本迁移到真实无人机平台，并在室内和室外环境中执行语言导航任务。这说明 WorldVLN 学到的并不是某个仿真器中的短期模式，而是具有一定迁移能力的 world-action representation。

总结

WorldVLN 探索了一条不同于 VLA 的空间导航路线。它不再把导航简单看成视觉语言输入与动作输出的直接映射，而是将其建模为：预测具身状态变化 → 生成可执行动作。我们相信，WorldVLN 的原生自回归架构和RL后训练方法具备拓展至更广泛的空间导航任务乃至具身操纵领域的潜力。

END