点击下方卡片,关注“具身智能之心”公众号
作者丨Jianqiang Xiao等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。
研究背景与动机
无人机在货物运输、紧急救援、环境监测等领域的应用日益广泛,随着智慧城市和低空空域管理的发展,无人机需要在复杂、动态的开放环境中实现自主导航。然而,现有研究多依赖视觉-语言导航(VLN)范式,这类方法需要详细的分步语言指令,限制了在开放世界中的可扩展性和自主性。
目标导航(ObjectNav)作为一种替代方案,要求智能体基于语义线索定位目标,无需密集的指令序列。但现有ObjectNav研究主要集中在地面室内场景,在大规模、非结构化的户外空中环境中仍未得到充分探索。为此,UAV-ON基准被提出,旨在推动无人机在复杂现实环境中基于语义目标描述的自主导航研究。

UAV-ON基准概述
UAV-ON是首个针对无人机在开放世界中进行实例级目标导航的大规模基准,其核心特点包括:
多样化环境:包含14个基于Unreal Engine构建的高保真户外环境,覆盖城市、森林、山地、水域等多种场景,空间尺度从350×250到1400×1250单位不等,总水平面积约900万平方单位,体现了真实世界的语义丰富性和视觉复杂性。
语义目标设计:定义了1270个标注目标,每个目标对应一个实例级语义指令,包含类别(如“人类”“卡车”)、大致尺寸(小/中/大)和自然语言描述(如“穿红色外套的行人”)。这些指令引入了现实中的歧义性和推理挑战,要求无人机结合场景上下文进行目标定位。

任务设置:每个任务中,无人机被随机放置在环境中,仅依靠前、左、右、下四个方向的RGB-D传感器获取的第一视角信息进行导航,需自主避障和路径规划,无全局地图或外部信息支持。任务终止条件为:无人机发出停止指令、碰撞障碍物,或达到最大步数(150步);若停止时与目标距离≤20单位,则判定为成功。
任务定义与仿真器设计
任务初始化与目标指令
任务开始时,无人机的初始姿态为6自由度位姿 为位置,为偏航角),目标指令为 ,包含目标类别、尺寸和视觉描述(如“名称:雕像;尺寸:中等;描述:青铜材质,坐姿,有衣物褶皱细节”)。目标被限定在以起始位置为中心、半径50单位的水平范围内。
传感器与动作空间
传感器:无人机配备四个同步RGB-D相机,分别朝向前后左右和下方,获取的RGB和深度图像记为和,所有视图分辨率和视场一致且时间同步。无人机无GPS或全局定位信号,完全依赖第一视角感知和自身记忆导航。
动作空间:采用参数化连续动作,包括平移(前进、左右移动、上升、下降)、旋转(左右旋转)和停止,每个动作对应连续的距离或角度参数。与现有空中导航基准的“ teleport 式”移动不同,UAV-ON中动作需物理执行,需确保轨迹无碰撞,碰撞即判定为失败,更贴近真实无人机操作。
数据集与评估指标
数据集划分
训练集:包含10个环境、10000个导航 episode,任务数量根据环境空间大小和目标分布比例分配。训练中无人机可获取自身绝对位置和与目标的实时欧式距离,支持强化学习;同时通过3D网格和A* 算法计算最短可达路径,支持模仿学习。
测试集:包含1000个 episode,覆盖10个训练环境和4个新环境,混合了熟悉场景、新场景及已知/未知目标类别,用于评估模型在环境和语义新颖性下的泛化能力。
评估指标
采用四个经典导航指标,适配3D空中导航场景:
成功率(SR):衡量 episode 结束时无人机与目标距离≤20单位的比例,公式为:
其中为 episode i 结束时的距离,,为指示函数。
潜在成功率(OSR):衡量 episode 中无人机与目标距离曾≤20单位的比例,反映探索能力,公式为:
其中为 episode i 在时刻 t 的距离。
成功距离(DTS): episode 结束时无人机与目标的平均欧式距离:
成功加权路径长度(SPL):综合任务成功和轨迹效率,仅计算成功 episode,公式为:
其中为起点到目标的最短 geodesic 距离(A* 算法计算),为实际轨迹长度。
基线方法与实验结果
基线方法
实验实现了四种基线方法,对比不同策略的性能:
随机策略(Random):每步随机选择动作,固定平移和旋转步长,前10步禁用停止动作,仅作为基准对照。
CLIP启发式探索(CLIP-H):结合CLIP模型的图文匹配和规则探索策略。通过CLIP编码RGB视图与目标描述的余弦相似度,若超过阈值则停止,否则向相似度最高方向移动;限制出界动作和最低飞行高度以确保安全。
空中目标导航智能体(AOA):基于预训练多模态大语言模型(MLLM)的零样本框架,整合多视图RGB-D观测、目标信息和姿态历史为结构化输入,通过GPT-4o mini生成语义动作指令(如“前进3单位”“左转60度”)。包含两个变体:AOA(Fixed-step,固定步长)和AOA(Variable-step,灵活步长),均无需任务特定训练。

实验结果分析
从table 2和table 3的结果来看,各方法表现呈现明显差异:


AOA-V(AOA Variable-step):OSR最高(26.30%),说明其语义理解和大范围探索能力较强,能有效接近目标,但SR(4.20%)和SPL(0.87%)较低,反映出LLM在同时处理语义理解、运动规划和终止控制时的注意力分散问题,难以精准执行停止指令。
AOA-F(AOA Fixed-step):SR(7.30%)和SPL(4.06%)更稳定,尤其在大型、视觉显著目标上表现较好。固定步长简化了控制,提升了轨迹执行和停止的可靠性,但探索范围略逊于AOA-V。
CLIP-H:SPL较高(4.15%),体现出基于视觉相似度的高效路径规划,但OSR(11.90%)和SR(6.20%)较低,说明其对语义目标的理解有限,依赖静态停止规则而非上下文推理。
随机策略:所有指标均最差(SR 3.70%,OSR 8.00%),验证了无目标导向的盲目探索无效性。
此外,所有方法的碰撞率均超过30%(如AOA-F达65.5%),远高于实际应用的安全要求,凸显了当前导航策略在避障和鲁棒控制上的不足。

参考
[1]UAV-ON: ABenchmark for Open-World Object Goal Navigation with Aerial Agents