给机器人装上「具身智能大脑」| Nav-R1“双脑架构”破局具身导航，慢思考规划+快执行控制！

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区，

用心写好每一篇文章！

项目主页-https://aigeeksgroup.github.io/Nav-R1/

代码链接-https://github.com/AIGeeksGroup/Nav-R1

论文链接-https://arxiv.org/pdf/2509.10884

为什么需要这个算法？--具身智能对于实现通用人工智能至关重要，多模态大模型（MLMs）和世界模型(WMs)有希望成为具身智能大脑的架构。现有的多模态大模型在导航方面主要存在两个问题：1）不连贯和不稳定的推理轨迹，即推理轨迹无法与导航指令对齐，这阻碍了跨不同环境的泛化。2）难以平衡长时间语义推理和实时导航的低延迟控制。

这个算法能做什么？--Nav-R1是一个多模态基础模型，集成了对话、推理、规划和导航功能，可在3D环境中实现智能交互和任务执行。

这个算法效果如何？--在基准数据集上的评估表明，Nav-R1始终优于强基线，推理和导航性能平均提高了8%以上。在WHEELTEC R550移动机器人上的真实部署进一步验证了其在有限机载资源下的鲁棒性。

01-Nav-R1算法简介

Nav-R1是一个多模态基础模型，集成了对话、推理、规划和导航功能，可在3D环境中实现智能交互和任务执行。Nav-R1主要有三点创新：1)构建了大规模数据集Nav-CoT-110K。2) 引入GRPO的强化学习框架从而提高模型的路径规划和导航的能力。3)采用双系统协同的快慢推理范式，将慢速的语义推理与快速的运动控制相解耦，从而实现高效而连贯的导航。

02-Nav-R1落地场景

02.01-真实场景导航

如上面的视频所示，从左到右依次展示了“鱼眼图、Ego图、深度图和点云Map”信息，该方法可以很好的完成真实场景下的复杂导航任务。

02.02-仿真场景导航

除了真实场景，该方法还可以完成仿真场景下的导航任务。上面的视频从左到右分别展示了Ego图、深度图和BEV地图的结果。

02.03-智能对话

如上面的视频所示，在该系统实时运行过程中，用户可以与该系统展开多轮对话，该系统可以很好的回答用户提出的问题。

02.04-智能推理

如上面的视频所示，除了简单的对话，该系统还可以在实时运行过程中执行复杂的推理任务，这充分的展示其强大的能力。

02.05-智能规划

如上面的视频所示，除了上面的功能之外，该系统可以完成端侧路径规划任务，这证明其可以很好的了解真实的环境以及地图上面的关键信息。

03-Nav-R1整体流程

资讯配图

上图展示了可作为具身智能大脑的Nav-R1，在对话、推理、规划和导航四个方面的能力，可看出Nav-R1能准确地回答出床上的枕头数目，判断路径可行性，合理规划路径，并生成连贯性的导航动作，最终到达卧室，并找到床的位置。

Nav-R1采用双系统的推理范式，系统2对输入的指令及RGBD图像进行推理输出编码后的潜在特征，系统1将该潜在特征与第一视角的RGBD序列与点云编码信息相融合，采用强化学习，输出关于路径的推理信息以及动作序列，该动作序列可控制智能体的运动轨迹以连贯地到达指定目标位置。

04-Nav-R1软硬件架构

04.01-核心硬件剖析

上图展示了该系统的硬件结构。整个系统采用WHEELTEC R550作为现实世界评估的移动平台。该机器人上主要包含以下几个关键的硬件：

Jetson Orin Nano作为机载计算单元，

M10P LiDAR用于环境测绘，
Astra Pro相机用于RGB-D感知。
小车作为基础的移动底盘，负责在环境中移动

考虑到平台的边缘计算资源有限，基础模型Nav-R1部署在云服务器上，而不是在本地运行。该系统以闭环方式运行：机器人将第一视角的RGB输入传输到云端，NavR1在云端进行推理并生成导航决策，并将这些命令传输回机载系统，STM32微控制器将它们转换为PWM信号，直接控制机器人的电机。

04.02-软件模块剖析

如上图所示，在强化学习阶段，作者将GRPO框架扩展到具体的3D视觉语言任务，并引入了三个互补的奖励共同监督训练：

格式奖励，保证输出格式化的推理结果。
理解奖励，确保3D场景下语义理解和视觉标注的正确性。

导航奖励，维持轨迹连贯性和终点的准确性。

这些奖励提供了多维反馈，平衡了语言结构、语义理解和动作执行。

05-Nav-R1性能评估

如上表所示，Nav-R1在CIDEr（C）、BLEU-4（B）、METEOR（M）和ROUGE-L（R）指标与先前方法相当，这说明了其在优化导航能力的同时并不会削弱其在对话、规划和推理方面的能力。

如上表所示，作者采用导航误差（NE）、成功率（SR）、预言成功率（OS）、按路径长度加权的成功率（SPL）和归一化动态时间扭曲（nDTW）等标准指标评估Nav-R1的导航能力，结果表明，Nav-R1的指令跟随和目标导航能力优于先前的方法，实现了更高的成功率和轨迹效率，同时减少了导航误差，在未知的环境中表现出卓越的泛化能力。

关注我，AI热点早知道，AI算法早精通，AI产品早上线！

禁止私自转载，需要转载请先征求我的同意！

欢迎你的加入，让我们一起交流、讨论与成长！

若二维码失效：关注公众号--》交流分享--》联系我们

资讯配图