打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,
用心写好每一篇文章!
为什么需要这个算法?--具身智能对于实现通用人工智能至关重要,多模态大模型(MLMs)和世界模型(WMs)有希望成为具身智能大脑的架构。现有的多模态大模型在导航方面主要存在两个问题:1)不连贯和不稳定的推理轨迹,即推理轨迹无法与导航指令对齐,这阻碍了跨不同环境的泛化。2)难以平衡长时间语义推理和实时导航的低延迟控制。
这个算法能做什么?--Nav-R1是一个多模态基础模型,集成了对话、推理、规划和导航功能,可在3D环境中实现智能交互和任务执行。
这个算法效果如何?--在基准数据集上的评估表明,Nav-R1始终优于强基线,推理和导航性能平均提高了8%以上。在WHEELTEC R550移动机器人上的真实部署进一步验证了其在有限机载资源下的鲁棒性。

01-Nav-R1算法简介
Nav-R1是一个多模态基础模型,集成了对话、推理、规划和导航功能,可在3D环境中实现智能交互和任务执行。Nav-R1主要有三点创新:1)构建了大规模数据集Nav-CoT-110K。2) 引入GRPO的强化学习框架从而提高模型的路径规划和导航的能力。3)采用双系统协同的快慢推理范式,将慢速的语义推理与快速的运动控制相解耦,从而实现高效而连贯的导航。
02-Nav-R1落地场景
03-Nav-R1整体流程

04-Nav-R1软硬件架构

Jetson Orin Nano作为机载计算单元,
M10P LiDAR用于环境测绘, Astra Pro相机用于RGB-D感知。 小车作为基础的移动底盘,负责在环境中移动

如上图所示,在强化学习阶段,作者将GRPO框架扩展到具体的3D视觉语言任务,并引入了三个互补的奖励共同监督训练:
格式奖励,保证输出格式化的推理结果。
理解奖励,确保3D场景下语义理解和视觉标注的正确性。
导航奖励,维持轨迹连贯性和终点的准确性。
这些奖励提供了多维反馈,平衡了语言结构、语义理解和动作执行。


关注我,AI热点早知道,AI算法早精通,AI产品早上线!

禁止私自转载,需要转载请先征求我的同意!
欢迎你的加入,让我们一起交流、讨论与成长!