开放世界导航新范式!港科大成果突破:基于LLM规划的长序列目标导航任务

深蓝具身智能 2025-07-26 10:56

资讯配图

在应对现实世界中长距离、多目标、动态变化的任务时,如何真正做到开放词汇目标导航,尤其是让四足机器人听懂任务指令、感知目标并灵活导航,完成一系列连贯动作?仍是一道待解的难题。

今天介绍的这篇来自香港科技大学(广州)团队的工作LOVON就提出了一个面向现实复杂环境的完整方案——

它整合了大语言模型的任务规划能力、开放词汇视觉模型的感知能力,以及Transformer驱动的语言到运动映射模型(L2MM)。在多个真实四足机器人平台上成功实现了“看懂任务、找对目标、走对路线”的全过程闭环执行。

小编认为,LOVON的出现不仅补足了当前LLM机器人研究中“行动执行不足”的短板,也为开放场景下的多模态机器人导航指明了新方向。

资讯配图

任务演示:“先靠近背包,然后缓慢走向椅子,最后快速接近人。”©️【深蓝具身智能】编译

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇

资讯配图

技术解析

如何让机器人听得懂任务、找得到目标、走得对路径

LOVON 的核心目标就是解决以上的三个难题。为此,它融合了三类关键技术能力:语言理解、多模态感知、动态控制决策

整个系统从自然语言输入出发,依次完成任务拆解、视觉感知、运动决策三个阶段,并在真实机器人上形成了一个高效稳健的执行闭环。

资讯配图

LOVON 系统流程总览©️【深蓝具身智能】编译

接下来,小编将从以下三个核心模块入手,拆解 LOVON 系统是如何实现这一整套“从理解到行动”的路径的:

基于大语言模型的高层任务规划器

LOVON 的第一步,是实现高层任务的语言理解与调度(先“听懂人话”)

与传统导航系统只能接受固定模板指令不同,LOVON 能理解结构复杂、顺序灵活的自然语言命令,比如:

“先靠近背包,然后缓慢走向椅子,最后快速接近人。”

对于这种多目标、多条件的指令,LOVON 采用 LLM 作为任务规划器,它的职责是:

这个模块看似“只是调度”,但它其实完成了两项能力的结合:语言推理 + 任务记忆与切换

这让 LOVON 不只是理解“去哪”,还知道“何时该去哪里”,实现类人化的任务执行流程

支持开放词汇的目标感知系统

听懂任务之后,机器人必须看得见目标,而不是只能识别固定类(比如 COCO-80)

LOVON 采用了一个基于 YOLO-World 的视觉系统,并加入了自研的 Instruction-Object Extractor(IOE)模块,构建起了完整的开放词汇感知流程:

资讯配图

对于图像清晰度的模糊判断可视化,可以看到从1-9图像从模糊变为清晰,如果在模糊的图像中执行视觉任务,势必对系统会产生极大地影响,这一点作者在后续的实验部分也进行了充分的证明©️【深蓝具身智能】编译

这一模块的优势在于:目标不需要预定义、也不需要训练时固定类别集,只要语言中提到了,它就会尝试找出来

同时 IOE 模块也能规避一词多义问题,比如“go to the left bag”不会错认为“left person”

语言-感知-控制融合的动作生成模块

这个过程的目的,是让机器人从视觉语言中学会“怎么走”。

这也是LOVON 中最关键的闭环执行部分——L2MM 模块,全称为 Language-to-Motion Mapper,用于将当前语言任务 + 感知状态,转化为运动控制指令。

它的核心是一种多输入的 Transformer 架构,输入包括:

然后输出三个关键控制变量:

(1)运动控制向量(linear velocity vx、vy,角速度 θ)

(2)任务完成判别(判断是否完成当前子任务)

(3)视觉搜索方向判别(判断若目标丢失,是应左转搜索还是右转搜索)

这种结构使得 L2MM 实际上承担了一个“翻译器”的职责:它把我要去哪 + 我看到什么翻译成我下一步该怎么走

同时,由于它具备任务状态判断能力,还能在目标消失时启动视觉搜索逻辑,避免卡死。

这一点弥补了很多 LLM+控制结合系统的核心短板:大模型能说人话,但控制指令接不住。

而 LOVON 的 L2MM 直接打通了这一步。

凭借出色的模块化设计,LOVON可以适应不同的具身平台,视频演示了LOVON在多个具身智能体上的运行效果©️【深蓝具身智能】编译

资讯配图

实验设计与关键结果分析

LOVON 的实验聚焦于两个核心问题:

为此,论文在多个真实部署场景中设计了任务链条,并与代表性方法进行了对比评估。

真实环境中多目标任务追踪实验演示©️【深蓝具身智能】编译

多目标任务追踪

实验设计了多种 多目标语言导航任务,例如:

“慢慢走向包,再靠近椅子,最后以最快速度靠近人。”

系统需要做到:

(1)对目标顺序有明确记忆;

(2)每步都能判断是否完成当前任务;

(3)并在完成前一步后自动过渡到下一个目标。

结果表明

LOVON 对运动模糊、遮挡和动态状态变化等视觉干扰具有很强的鲁棒性。场景中的雨伞被遮挡,导致视觉效果受到影响。LOVON 能够从这种干扰中恢复,并继续接近目标。©️【深蓝具身智能】编译

这说明其语言-控制闭环确实能应对非结构化多目标任务,并在“边走边思考”中形成稳定执行流。

模糊图像过滤机制

在真实部署中,机器人运动会导致摄像头图像产生模糊。LOVON 引入了基于拉普拉斯方差的图像清晰度评估模块,用以判断当前图像是否可信。

论文构造了对比实验:

资讯配图

不同速度下,不同目标所使用的阈值和合格帧率比例。如图所示,结合作者提出的移动平均滤波(MAF)的方法将合格帧率提高了 25%©️【深蓝具身智能】编译

这个模块虽然轻量,但在真实场景中是提升系统鲁棒性的关键补丁,有效阻止了由视觉质量波动引发的 cascade error。

与 SOTA 系统对比:LOVON 的全流程优势体现在哪?

论文对比了三类 baseline 系统,并在多个目标、多语言任务中,LOVON 显著优于 baseline,尤其在:

更关键的是,LOVON 并非靠训练时的数据拟合,而是依靠结构化模块设计 + L2MM 的泛化能力,实现了跨目标、跨语言任务的一致表现

资讯配图

与SOTA方法的对比实验结果©️【深蓝具身智能】编译

资讯配图

总结

从这篇LOVON的系统设计中我们可以看到,当让机器人听懂你在说什么成为可能时,接下来的挑战其实是——让它能在复杂环境中说到做到

LOVON 并不是简单地用 LLM 控任务、用 YOLO 识目标、用 RL 控身体,而是构建了一个有明确信息流动、决策闭环的系统结构:

语言任务有规划、目标识别能泛化、运动控制能感知目标变化并实时调整。

而且这些能力不止停留在实验室里的“视频效果”,而是真正落地在真实四足机器人平台上,完成多目标任务

编辑|阿豹

审编|具身君


参考文献:

论文名称:LOVON: Legged Open-Vocabulary Object

论文作者:Daojie Peng, Jiahang Cao, Qiang Zhang, Jun Ma

论文地址:https://arxiv.org/pdf/2507.06747

项目地址:https://daojiepeng.github.io/LOVON/


资讯配图【深蓝具身智能读者群】-参观机器人
欢迎各位粉丝朋友,加入深蓝具身君的读者群,具体参观开放日时间将在群内陆续通知。
扫下方二维码,添加具身君;通过验证后,加入群聊:
资讯配图

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?‍

欢迎关注【深蓝具身智能】👇

资讯配图
1、登顶 ICCV 2025!清华大学提出统一具身智能导航框架:主动感知、三维视觉-语言理解
2、具身智能30年权力转移:谁杀死了PID?大模型正在吃掉传统控制论的午餐……
3、克服VLA根本性缺陷!复旦&华为诺亚:首个4D时空预训练框架,精准对齐机器人与场景坐标系
资讯配图

【深蓝具身智能】的原创内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果,转载添加下方微信进行授权,发文时务必注明出自【深蓝具身智能】微信公众号,否则侵权必究⚠️⚠️


投稿|寻求合作|研究工作推荐:SL13126828869


资讯配图

点击收藏并推荐本文

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
导航
more
谷歌研究院联合加州大学等发布AVLMaps:多模态空间语言地图赋能机器人零样本导航与跨模态推理
潮讯:鸿蒙版《原神》开始测试;红米双旗舰卖爆了;马斯克将发布Grok4模型;华为Pura80支持长隧道车道级导航定位
CVPR2025|想让机器人像人类一样适应动态交通?纽约大学AI4CE组提出CityWalker,用海量视频优化实体城市导航
导航App的最快路线是怎么算出来的
机器人需求驱动导航新SOTA,成功率提升15%!浙大&vivo联手打造
制造业转型的实战“导航图”来了!——《标杆智能工厂案例集》正式出版
重塑具身导航策略!RSRNav:基于空间关系推理的图像目标导航
重磅!华经产业研究院发布《2025年中国北斗卫星导航系统行业市场深度研究报告》
有几个Top具身公司的大模型、强化学习、VLA和具身导航岗位!
用眼镜导航是一种什么体验?Rokid Glasses让AI看得见
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号