在四足机器人的视觉 - 语言 - 动作(VLA)领域,核心难题在于弥合高层语义推理与底层动作控制的鸿沟——现有方法要么直接映射语言到动作导致稳定性差,要么依赖隐式中间嵌入缺乏可解释性,难以在真实场景中稳健执行复杂任务。
北京大学等团队推出的MobileVLA-R1,通过 “结构化思维链(CoT)推理 + 两阶段训练范式”,首次实现四足机器人在自然语言指令下的显式推理与连续控制,在导航和操作任务中性能领先,为移动机器人的通用化落地提供了全新方案。
为什么需要重构移动机器人的 VLA 框架?
当前四足机器人的 VLA 系统面临两大核心痛点,形成 “推理 - 控制脱节” 的困境:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
MobileVLA-R1 的核心突破在于:将 “思维链推理” 与 “连续动作执行” 解耦,通过结构化数据监督和强化学习,让机器人先 “想清楚” 再 “做准确”,同时兼顾可解释性与控制稳健性。

MobileVLA-R1:如何实现推理与控制的深度协同?
MobileVLA-R1 的核心设计可概括为 “结构化 CoT 数据集 + 两阶段训练 + 多模态感知融合”,通过三大核心模块实现 “推理连贯、控制稳定、泛化性强” 的目标:
核心模块 1:MobileVLA-CoT—— 大规模多粒度思维链数据集
构建首个面向四足机器人的结构化推理数据集,填补 “指令到动作” 的推理监督空白:
-
数据规模:包含 18K 条 episode 级样本、78K 条步骤级样本、38K 条导航专用样本,覆盖导航与操作全场景; -
粒度层次: -
episode 级:总结任务结果与高层执行策略; -
步骤级:明确下一步动作及决策依据; -
导航级:衔接全局指令与多步轨迹推理; -
数据来源:基于 R2R、RxR 导航数据集和 QUARD 四足机器人数据集,通过 Gemini-2.5-Flash 生成结构化 CoT 标注,经规则过滤 + 人工校验保障质量,数据统计如下表 1 所示。

核心模块 2:分层 VLA 架构 —— 推理先行,执行精准
采用 “感知 - 推理 - 执行” 三级架构,实现从多模态输入到连续控制的端到端映射,架构如图 2 所示:

-
多模态感知前端:融合 RGB 图像、深度图、点云数据,通过 DepthAnything V2 深度编码器和 Point Transformer v3 点云编码器,精准捕捉 3D 空间信息与障碍物分布; -
CoT 推理模块:基于 LLaMA3-8B 语言 backbone,生成符合 “推理过程 + 动作指令” 格式的结构化输出,推理过程可追溯、可解释; -
动作解码器:将推理结果转化为四足机器人的连续控制指令(x/y 轴速度、偏航角速度、步态等),实现平滑 locomotion 与操作。
核心模块 3:两阶段训练范式 —— 冷启动 + 强化学习优化
通过 “监督对齐 + 强化学习” 的组合训练,兼顾推理一致性与控制稳定性:
冷启动阶段(SFT):在 MobileVLA-CoT 数据集上微调,先学习 episode 级和导航级推理格式,再适配步骤级动作指令,建立 “语言 - 推理 - 动作” 的基础映射;
强化学习阶段(GRPO):采用 Group Relative Policy Optimization 优化策略,设计三重奖励函数,训练流程如图 4 所示:

-
运动奖励:通过速度向量余弦相似度确保轨迹平滑; -
动作奖励:监督离散动作与目标标签的一致性; -
格式奖励:保障输出结构可解析,避免无效指令。
关键实验:MobileVLA-R1 的性能表现如何?
基准测试:全面超越 SOTA 方法
-
导航任务(VLN-CE):在 R2R-CE 和 RxR-CE 数据集上,成功率(SR)分别达 68.3% 和 71.5%,较现有方法平均提升 5%,导航误差(NE)低至 4.05,轨迹效率(SPL)达 65.2%,具体对比见表 2;

-
四足控制任务(QUARD):在 6 项 locomotion 与操作任务中平均成功率 73%,涵盖 “避障导航”“穿越间隙”“卸载物体” 等场景,硬难度任务成功率达 44%,显著超越 QUART、MoRE 等基线模型,性能对比见表 3。

真实世界部署:稳健适配复杂环境
在 Unitree Go2 四足机器人上完成多场景测试,硬件配置与部署流程如图 5 所示:

-
环境覆盖:工作台、走廊、户外三类场景,支持简单指令(单步导航)和复杂指令(多步推理 + 避障); -
核心表现:复杂指令成功率达 86%-91%,导航误差低于 1.23,能稳定完成 “避开箱子→右转→停在门前”“寻找自行车→卧倒” 等连贯任务,适配动态 clutter 与部分遮挡场景,真实世界测试结果见表 4。

消融实验:关键组件的必要性验证
-
奖励函数:同时启用运动、动作、格式三重奖励时性能最优,移除任一奖励会导致成功率下降 3%-10%,具体结果见表 5;

-
多模态感知:新增深度和点云编码器后,导航成功率提升 5.8%,证明 3D 空间信息对场景理解的关键作用,模态消融结果见表 6。

核心结论与未来方向
核心结论
-
结构化 CoT 推理是弥合语义 - 控制鸿沟的关键:通过显式推理过程,既提升了指令落地的稳定性,又保障了决策可解释性; -
两阶段训练范式兼顾 “冷启动效率” 与 “优化上限”:SFT 建立基础映射,GRPO 强化推理 - 动作一致性,实现 1+1>2 的效果; -
多模态融合提升泛化能力:RGB + 深度 + 点云的感知组合,让机器人在复杂空间中精准定位、避障与执行。
未来方向
-
扩展动作空间:支持更精细的操作任务(如精密装配),提升技能组合多样性; -
降低推理延迟:通过模型蒸馏、量化等技术优化 8B 参数 backbone,适配实时交互场景; -
自监督学习扩展:减少对人工标注数据的依赖,实现机器人自主学习新技能。
总结
MobileVLA-R1 的创新在于首次将思维链推理与强化学习融入四足机器人的 VLA 框架,打破了 “要么可解释、要么稳执行” 的行业困境。其结构化数据集与训练范式不仅为移动机器人提供了高效的学习路径,更推动 VLA 模型向 “高可解释、高稳健、低部署成本” 方向发展,有望在服务机器人、自主巡检等领域实现规模化应用。