具身导航，是否一定要训练一个 VLA 大模型? Uni-LaViRA 给出的答案是“不一定”

点击下方卡片，关注“具身智能之心”公众号

作者丨Hongyu Ding 等
编辑丨具身智能之心
本文只做学术分享，如有侵权，联系删文

更多干货，欢迎加入国内首个具身智能全栈学习社区：(戳我)，这里包含所有你想要的。

做具身导航，是否一定要训练一个 VLA 大模型? Uni-LaViRA 给出的答案是：不一定。

过去两年，这个方向的主流做法是把视觉-语言-动作（VLA）基础模型不断做大，用几百万到上千万条机器人轨迹、数千 GPU 小时训练，靠数据规模换泛化。南京大学、中科院自动化所等团队的最新工作 Uni-LaViRA 选择了另一条路：不训练任何参数，把导航拆成大模型本就擅长的三步翻译，零样本就在六大权威基准上取得免训练方法中的最好成绩，并在其中四个基准上反超了训练型 SOTA。仿真与真机代码均已开源。

论文标题：Uni-LaViRA: Language-Vision-Robot Actions Translation for Unified Embodied Navigation
作者：Hongyu Ding*, Sizhuo Zhang*, Ziming Xu*, Jinwen Guo, Hongxiu Liu, Xingzhi Cheng, Zixuan Chen, Haifei Qi, Duo Wang, Hao Xu, Jieqi Shi†, Yifan Zhang†, Jing Huo†, Jian Cheng, Yang Gao, Jiebo Luo
单位：南京大学，中科院自动化所，北京航空航天大学，宝马（南京）信息技术有限公司，美国罗切斯特大学
论文链接：https://arxiv.org/abs/2605.27582
项目主页：https://xetroubadour.github.io/Uni-LaViRA/
开源代码（仿真 + 真机）：https://github.com/NJU-R-L-Group-Embodied-Lab/uni-lavira-code

具身导航，是否一定要训练一个 VLA 大模型? Uni-LaViRA 给出的答案是“不一定”图1 — 框架总览：左侧一套零样本架构把 Language→Vision→Robot 三级翻译覆盖到 4 类任务、4 种机器人；右上散点显示其在零训练下接近训练型基座，右下雷达图为六大基准结果。

为什么导航或许不需要"专门训练"

具身导航如今分出四条主线——VLN-CE（连续环境指令导航）、ObjectNav（开放目标检索）、EQA（边走边答的具身问答）、Aerial-VLN（无人机三维导航）。任务形态不同，内核相通：看懂场景、理解指令、给出移动动作。

主流做法是训练一个大型 VLA 基座，靠规模堆出泛化。但这条路代价不小：训练数据两年里从不到 100 万条增长到 1600 万条以上，成功率才从不足 40% 提升到约 70%；而且模型与任务、硬件强绑定，换场景、换机器人往往要重新训练，长指令容易丢失中间目标，走错后也只能重试。对多数高校和实验室来说，门槛偏高。

Uni-LaViRA 的出发点是：日常导航本质上是"无接触"的空间移动——智能体不与物体发生复杂接触，只是在空间中穿行、做推理。这类动作的语义（往哪走、看哪个目标），正是预训练多模态大模型（MLLM）平时大量生成的内容。既然导航决策本就落在大模型的能力范围内，就不必再用机器人数据重新训练它；只要把任务结构拆解得当，现成的推理能力即可胜任。

把导航拆成三级"动作翻译"

Uni-LaViRA 把每一步决策拆成三级翻译，从"语义"逐级落到"坐标"，每一级交给最合适的模型，全程没有任何需要训练的参数。

具身导航，是否一定要训练一个 VLA 大模型? Uni-LaViRA 给出的答案是“不一定”图2 — 框架流程：Language Action 给出工具调用，Vision Action 在第一视角中框定目标，Robot Action 规划执行；右侧 TODO List Memory 维护清单，Second-Chance Backtrack 负责回退重规划。

语言层（Gemini-3.1-Pro）：读取指令、观察四周，输出"前/左/右/后转、回退、上下楼、是否停止"等高层决策，并维护整体规划，相当于系统的决策中枢。
视觉层（Qwen3.5-27B）：根据方向，在第一视角图像中框出目标，给出边界框和一句描述。它直接在原始像素上定位，无需额外的预训练路点预测器，并天然支持开放词汇目标。
几何层（确定性控制器）：把 2D 框结合深度和相机内参反算成 3D 坐标，地面用快速行进算法规划路径，无人机用体素网格与可视性图。这是框架中唯一与硬件相关的一层，换机器人只需替换它，上面两层保持不变。

两个关键机制：TDM 与 SCB

三级翻译解决了"怎么走"，但长指令容易走偏、岔路容易选错。Uni-LaViRA 为此加了两个纯推理期、不引入训练的智能体循环：

TDM（待办清单记忆）：把指令拆成一份"待办/已完成"清单，每步先回看、更新清单再决策，相当于不断把未完成的子目标提示给大模型。对 RxR 这类平均 120 词（约为 R2R 四倍）的长指令、以及无人机多阶段飞行，它能稳定地锚定全局目标。
SCB（二次机会回溯）：走进死胡同时，不是简单后退重试，而是回到出错前的航点，并把失败的那段轨迹作为上下文交给大模型，让它先分析"上一步为什么错"再重新选择方向。错误由此成为有用的判断依据，而不是被直接丢弃。

两者相互独立：回退之后清单依然保留，可以协同工作。

实验结果：六个基准，零训练，四项反超

评测覆盖六大榜单：地面任务在 Habitat、无人机在 AirSim，包含 VLN-CE R2R/RxR、HM3D-v2、HM3D-OVON、MP3D-EQA、OpenUAV；均在 val-unseen 上抽取分层 100 子集、3 个种子取均值。骨干为 Gemini-3.1-Pro 与 Qwen3.5-27B，纯 API 推理、不做微调。

具身导航，是否一定要训练一个 VLA 大模型? Uni-LaViRA 给出的答案是“不一定”图3

总体来看，Uni-LaViRA 在六个基准上都是表现最好的免训练方法，并在 HM3D-v2、HM3D-OVON、MP3D-EQA、OpenUAV 四项上超过了最强的训练型基础模型；仅在两个 VLN-CE 任务上，体量更大的多任务 VLA 仍保持领先。

具身导航，是否一定要训练一个 VLA 大模型? Uni-LaViRA 给出的答案是“不一定”图4 — VLN-CE R2R / RxR 主结果：蓝色为零样本方法，Uni-LaViRA 的 R2R SR 60.7%、NE 3.66m 为全表最优。

具身导航，是否一定要训练一个 VLA 大模型? Uni-LaViRA 给出的答案是“不一定”图5 — HM3D-v2 / HM3D-OVON / MP3D-EQA 主结果：Uni-LaViRA（末行）在三项上均为零样本方法最佳，并超过各自最强的训练型基线。

具身导航，是否一定要训练一个 VLA 大模型? Uni-LaViRA 给出的答案是“不一定”图6 — OpenUAV 结果：Uni-LaViRA 为唯一的零样本方法，Full / Easy / Hard 三档均领先专用无人机模型，Hard 难段优势最明显。

消融实验显示两个机制缺一不可：全开与全关相比，六基准平均成功率从 48.6% 提升到 57.4%；其中 TDM 在长指令、远距离无人机任务上贡献更大，SCB 在室内多房间检索时更关键，二者互补。

具身导航，是否一定要训练一个 VLA 大模型? Uni-LaViRA 给出的答案是“不一定”图7 — TDM × SCB 消融：两机制全开时六基准均分 57.4%，去掉任一都会回落；TDM 偏长指令任务，SCB 偏室内检索。

对 1800 条轨迹的失败归因显示，前三类约占九成：误判目标提前停止 45.8%、到达后未触发停止 24.7%、问答细节识别错误 19.5%，这也是后续改进的重点。

具身导航，是否一定要训练一个 VLA 大模型? Uni-LaViRA 给出的答案是“不一定”图8 — 1800 条轨迹的失败归因：前三类合计约九成。

下面是六大基准的决策轨迹示例：

具身导航，是否一定要训练一个 VLA 大模型? Uni-LaViRA 给出的答案是“不一定”图9 — 六大基准的决策轨迹示例：每行五帧，标注 Language Action 的 NAV / BACKTRACK / STOP 与 Vision Action 框定的目标，可见回溯（BACKTRACK）是常见步骤。

成本：从训练开销转为推理开销

成本是 Uni-LaViRA 的一个突出优势。一个 NavFoM 量级的训练型基座，需要 56 张 H100 连续运行约 72 小时才能训出；Uni-LaViRA 没有前置训练，只有按调用计的推理开销。训练样本上差距更明显：训练型方法从 0.95M 增长到近 1700 万条，而它是 0 条、0 GPU 小时。一套大模型 API，普通实验室即可开展研究。