给机器人装上「具身智能大脑」| Nav-R1“双脑架构”破局具身导航,慢思考规划+快执行控制!

AI产品汇 2025-09-19 07:50

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



项目主页-https://aigeeksgroup.github.io/Nav-R1/
代码链接-https://github.com/AIGeeksGroup/Nav-R1
论文链接-https://arxiv.org/pdf/2509.10884


为什么需要这个算法?--具身智能对于实现通用人工智能至关重要,多模态大模型(MLMs)和世界模型(WMs)有希望成为具身智能大脑的架构现有的多模态大模型在导航方面主要存在两个问题:1)不连贯和不稳定的推理轨迹,即推理轨迹无法与导航指令对齐,这阻碍了跨不同环境的泛化。2)难以平衡长时间语义推理和实时导航的低延迟控制。

这个算法能做什么?--Nav-R1是一个多模态基础模型,集成了对话、推理、规划和导航功能,可在3D环境中实现智能交互和任务执行。

这个算法效果如何?--在基准数据集上的评估表明,Nav-R1始终优于强基线,推理和导航性能平均提高了8%以上。WHEELTEC R550移动机器人上的真实部署进一步验证了其在有限机载资源下的鲁棒性。



资讯配图


01-Nav-R1算法简介

    Nav-R1是一个多模态基础模型,集成了对话、推理、规划和导航功能,可在3D环境中实现智能交互和任务执行。Nav-R1主要有三点创新:1)构建了大规模数据集Nav-CoT-110K。2) 引入GRPO的强化学习框架从而提高模型的路径规划和导航的能力。3)采用双系统协同的快慢推理范式,将慢速的语义推理与快速的运动控制相解耦,从而实现高效而连贯的导航。

02-Nav-R1落地场景

02.01-真实场景导航
    如上面的视频所示,从左到右依次展示了“鱼眼图、Ego图、深度图和点云Map”信息,该方法可以很好的完成真实场景下的复杂导航任务。
02.02-仿真场景导航
    除了真实场景,该方法还可以完成仿真场景下的导航任务。上面的视频从左到右分别展示了Ego图、深度图和BEV地图的结果。
02.03-智能对话
    如上面的视频所示,在该系统实时运行过程中,用户可以与该系统展开多轮对话,该系统可以很好的回答用户提出的问题。
02.04-智能推理
    如上面的视频所示,除了简单的对话,该系统还可以在实时运行过程中执行复杂的推理任务,这充分的展示其强大的能力。
02.05-智能规划
    如上面的视频所示,除了上面的功能之外,该系统可以完成端侧路径规划任务,这证明其可以很好的了解真实的环境以及地图上面的关键信息。

03-Nav-R1整体流程

资讯配图

    上图展示了可作为具身智能大脑的Nav-R1,对话、推理、规划和导航四个方面的能力,可看出Nav-R1能准确地回答出床上的枕头数目,判断路径可行性,合理规划路径,并生成连贯性的导航动作,最终到达卧室,并找到床的位置。
资讯配图
    Nav-R1采用双系统的推理范式,系统2对输入的指令及RGBD图像进行推理输出编码后的潜在特征系统1将潜在特征与第一视角的RGBD序列与点云编码信息相融合,采用强化学习,输出关于路径的推理信息以及动作序列,该动作序列可控制智能体的运动轨迹以连贯地到达指定目标位置。

04-Nav-R1软硬件架构

04.01-核心硬件剖析
资讯配图
    上图展示了该系统的硬件结构。整个系统采用WHEELTEC R550作为现实世界评估的移动平台。该机器人上主要包含以下几个关键的硬件:
  • Jetson Orin Nano作为机载计算单元,
  • M10P LiDAR用于环境测绘,
  • Astra Pro相机用于RGB-D感知。
  • 小车作为基础的移动底盘,负责在环境中移动
    考虑到平台的边缘计算资源有限,基础模型Nav-R1部署在云服务器上,而不是在本地运行。该系统以闭环方式运行:机器人将第一视角的RGB输入传输到云端,NavR1在云端进行推理并生成导航决策,并将这些命令传输回机载系统,STM32微控制器将它们转换为PWM信号,直接控制机器人的电机。
04.02-软件模块剖析
资讯配图

    如上图所示,在强化学习阶段,作者将GRPO框架扩展到具体的3D视觉语言任务,并引入了三个互补的奖励共同监督训练:

  • 格式奖励,保证输出格式化的推理结果。

  • 理解奖励,确保3D场景下语义理解和视觉标注的正确性。

  • 导航奖励,维持轨迹连贯性和终点的准确性。

    这些奖励提供了多维反馈,平衡了语言结构、语义理解和动作执行。

05-Nav-R1性能评估
资讯配图
    如上表所示,Nav-R1在CIDEr(C)、BLEU-4(B)、METEOR(M)和ROUGE-L(R)指标与先前方法相当,这说明了其在优化导航能力的同时并不会削弱其在对话、规划和推理方面的能力。
资讯配图
    如上表所示,作者采用导航误差(NE)、成功率(SR)、预言成功率(OS)、按路径长度加权的成功率(SPL)和归一化动态时间扭曲(nDTW)等标准指标评估Nav-R1的导航能力,结果表明,Nav-R1的指令跟随和目标导航能力优于先前的方法,实现了更高的成功率和轨迹效率,同时减少了导航误差,在未知的环境中表现出卓越的泛化能力。



关注我,AI热点早知道,AI算法早精通,AI产品早上线!



资讯配图

禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
导航 机器人
more
基于 ESP32 的离线便携式全球导航卫星系统设备
地平线机器人具身导航快慢推理新探索!FSR-VLN:基于分层多模态场景图快慢推理的视觉语言导航
化学反应的「全景地图」来了,机器人帮科学家导航高维实验空间
更创新,更智能!在司南导航展台感受“智慧农业”新气象
北大开源3D-R1:释放具身导航中的3D场景理解能力
北大计算机学院副研究员王钊:开放世界具身视觉导航大脑
给机器人装上「具身智能大脑」| Nav-R1“双脑架构”破局具身导航,慢思考规划+快执行控制!
让机器人「不只是走路」,Nav-R1引领带推理的导航新时代
巨大进步!李飞飞“空间智能”最新成果,单个图像生成大规模3D世界,更持久、可导航、可控制
60Hz的连续推理效率!上海 AI Lab开源端到端双系统导航大模型InternVLA·N1
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号