让机器人「不只是走路」,Nav-R1引领带推理的导航新时代

机器之心 2025-09-18 09:01
资讯配图


在机器人与智能体领域,一个长期的挑战是:当你给机器人一个「去客厅把沙发上的书拿来」或者「沿着楼道走到门口,再右转」这一类指令时,机器人能不能不仅「看见环境」,还能「理解指令」、「规划路径」、然后「准确执行动作」?


资讯配图


之前的许多方法表面上看起来也能完成导航任务,但它们往往有这样的问题:推理(reasoning)的过程不够连贯、不够稳定;真实环境中路径规划与即时控制之间难以兼顾;在新的环境里泛化能力弱等。


Nav-R1 出场:什么是 Nav-R1?


资讯配图



这篇题为《Nav-R1: Reasoning and Navigation in Embodied Scenes》的新论文,提出了一个新的「身体体现式(embodied)基础模型」(foundation model),旨在让机器人或智能体在 3D 环境中能够更好地结合「感知 + 推理 + 行动」。简单说,它不仅「看到 + 听到+开动马达」,还加入清晰的中间「思考」环节。


核心创新


1.Nav-CoT-110K:推理轨迹的冷启动(cold-start)基础


资讯配图


作者构造了一个大规模的数据集 Nav-CoT-110K,包含约 11 万(110K)条 Chain-of-Thought(推理链 / 思考链、CoT)轨迹。每条轨迹里不仅有任务描述(导航指令),还有机器人从环境中看到的 egocentric 视觉输入 (「我从这里看到了墙、看到了桌子、右边是沙发…」 等),以及每一步可能的行动选项,再加上明确格式化的思考与动作输出。


这些轨迹用于冷启动训练(即监督训练阶段),使模型「先学会怎么思考 + 怎么根据环境和指令决定动作」,在进入强化学习 (RL) 优化之前就已有了一个较为稳定的推理与行动基础。


2.三种奖励(rewards):格式、理解、路径


资讯配图


在强化学习阶段,Nav-R1 不只是简单地奖励「到达目的地」,它引入了三种互补的奖励机制,使得行为更精准、更有逻辑、更符合人类期待:


3.Fast-in-Slow 推理范式:脑子快 + 身体稳


一个非常有意思的设计灵感是借鉴人类认知中的 “双系统理论”(Thinking Fast and Slow 等),即一个系统擅长深思熟虑、长远规划;另一个系统擅长快速反应、实时控制。


资讯配图



实验与效果:真的有用吗?


Nav-R1 给出的实验证据很有说服力,既有模拟环境中的各种基准(benchmarks)也有真实机器人部署。



资讯配图

VLN 任务结果


资讯配图

ObjectNav 任务结果



资讯配图

Robot Setup


资讯配图

在三个不同的室内环境中进行真实世界实验结果



资讯配图

平均推理延迟比较


Demo 展示:从仿真到现实的双重验证


为了让大家更直观地理解 Nav-R1 的能力,研究团队还准备了视频 Demo,涵盖仿真环境和真实机器人环境两类典型场景。


仿真环境:VLN 与 ObjectNav


 Habitat 仿真平台中,Nav-R1 接收自然语言导航指令,例如「从走廊穿过客厅,到达右边的沙发」。


指令:Walk past brown leather recliner. Walk through open french doors. Make hard left opposite zebra painting. Wait at mirror.




指令:Search for a tv monitor.




真实世界:VLN ObjectNav 机器人部署


研究团队还把 Nav-R1 部署在 WHEELTEC R550 移动机器人平台(配备 Jetson Orin Nano、RGB-D 摄像头和 LiDAR)。在会议室、走廊、休息区等真实场景中,Nav-R1 执行类似的 VLN 指令和 ObjectNav 任务。


指令:Go to the black chair on your left and pause, then move forward to the front-right and stop at the blue umbrella.



指令:Move straight ahead and look for the keyboard along the wall in front.



意义与应用场景


Nav-R1 它带来了一些比较实际且有影响力的可能性。


1. 服务机器人 / 家庭机器人


在家里,机器人要在杂乱的环境中穿行、按指令找东西、与人交互时,不仅要走得快、走得稳,还要走得「懂」。Nav-R1 的结构化推理 + 路径精准性 + 实时控制恰好能提升用户信心与使用体验。


2. 助老 / 医疗 / 辅助设备


在医院、养老院、辅助设施中,环境复杂,人多物杂,需要机器人能安全、可靠地导航,且对错误能够有语义上的理解与纠正能力。


3. 增强现实 / 虚拟现实


AR 或 VR 中,如果虚拟智能体或助手要在用户的物理环境中导航(或通过视觉输入理解环境为用户指路),这样的推理 + 控制结合非常关键。


4. 工业 / 危险环境


在工厂、矿井甚至灾害现场,机器人需要在未知或危险环境中执行任务。Nav-R1 的泛化能力与稳健性使得它可以作为基础模块进一步应用。


作者介绍


刘庆祥是上海工程技术大学电子电气工程学院在读硕士,研究方向聚焦于视觉语言导航、具身智能。曾参与多项科研项目,致力于构建具备具身世界模型。


黄庭是上海工程技术大学电子电气工程学院在读硕士Zhenyu Zhang 和 Hao Tang 老师的准博士生,研究方向聚焦于三维视觉语言模型、空间场景理解与多模态推理。曾参与多项科研项目,致力于构建具备认知与推理能力的通用 3D-AI 系统。


张泽宇是 Richard Hartley 教授和 Ian Reid 教授指导的本科研究员。他的研究兴趣扎根于计算机视觉领域,专注于探索几何生成建模与前沿基础模型之间的潜在联系。张泽宇在多个研究领域拥有丰富的经验,积极探索人工智能基础和应用领域的前沿进展。


唐浩现任北京大学计算机学院助理教授 / 研究员、博士生导师、博雅和未名青年学者,入选国家级海外高水平人才计划。曾获国家优秀自费留学生奖学金,连续两年入选斯坦福大学全球前 2% 顶尖科学家榜单。他曾在美国卡耐基梅隆大学、苏黎世联邦理工学院、英国牛津大学和意大利特伦托大学工作和学习。长期致力于人工智能领域的研究,在国际顶级期刊与会议发表论文 100 余篇,相关成果被引用超过 10000 次。曾获 ACM Multimedia 最佳论文提名奖,现任 ACL 2025、EMNLP 2025、ACM MM 2025 领域主席及多个人工智能会议和期刊审稿人。更多信息参见个人主页: https://ha0tang.github.io/


资讯配图


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
导航 机器人
more
哈工深提出UAV-ON:开放世界空中智能体目标导向导航基准测试
深圳无界智慧招聘机器人导航、医疗Agent开发工程师和具身操作算法实习等岗位
定位导航:泳池机器人的核心痛点
视觉-语言-导航(VLN)技术梳理:算法框架、学习范式、四大实践
Xbot知识星球精选 | 具身导航入门
具身智能开源周:导航、操作、运动大模型及数据集批量上线,上海AI实验室加速助力机器人训练及应用
无人机飞行不迷路:解析惯性导航系统与磁力计的协同作战!推荐几款传感器
导航App上的红绿灯读秒有什么用
上海AL Lab | NavDP:跨场景及本体的通用端到端导航方法
什么是真正强大的具身智能?顶会顶刊解读:Zero-Shot 导航如何在复杂数据集上实现 SOTA 性能!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号