首发！低空无人机场景大考：多模态大语言模型的感知、思考与规划能力，到底行不行？

来源：3D视觉工坊

0.这篇文章干了啥？

这篇文章提出了MM - UAVBENCH，一个用于评估多模态大语言模型（MLLMs）在低空无人机（UAV）场景下感知、认知和规划能力的综合性基准。现有MLLM基准很少涵盖低空场景的独特挑战，而无人机相关评估主要集中在特定任务，缺乏对MLLMs通用智能的统一评估，MM - UAVBENCH旨在填补这一空白。该基准具有三个主要特点：全面的任务设计，包含19个子任务，涵盖感知、认知和规划三个核心能力维度；多样的真实世界场景，由来自城市、农田、野生动物栖息地和紧急或灾区等多种场景的真实无人机图像构建而成；高质量的人工标注，所有任务均经过人工标注，并提供详细的辅助标注。研究人员收集了1549个视频片段和2873张图像，手动标注了16个任务，其余3个任务通过对人工标注标签进行基于规则的转换生成，共产生5702个多项选择题标注。实验对16个开源和专有MLLMs进行评估，发现当前模型难以适应低空场景复杂的视觉和认知需求，还揭示了空间偏差和多视图理解等阻碍MLLMs在无人机场景中有效部署的关键瓶颈。该研究为评估MLLMs在低空无人机场景中的性能提供了一个多样化、高保真且特定领域的测试平台，希望能激发未来对更强大、可靠且面向无人机的MLLMs的研究。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：MM-UAVBENCH: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?
作者：Shiqi Dai, Zizhi Ma, Zhicong Luo, Xuesong Yang, Yibin Huang, Wanyue Zhang, Chi Chen, Zonghao Guo, Wang Xu, Yufei Sun, Maosong Sun
作者机构：1Tsinghua University；2Nankai University；3Northwest Polytechnical University；4Chinese Academy of Sciences；5Harbin Institute of Technology
论文链接：https://arxiv.org/pdf/2512.23219

2. 摘要

尽管多模态大语言模型（MLLMs）在不同领域展现出了卓越的通用智能，但其在以无人机（UAV）为主导的低空应用中的潜力仍有待深入探索。现有的MLLM基准测试很少涵盖低空场景的独特挑战，而与无人机相关的评估主要集中在定位或导航等特定任务上，缺乏对MLLMs通用智能的统一评估。为了填补这一空白，我们推出了MM - UAVBENCH，这是一个全面的基准测试，系统地评估了MLLMs在低空无人机场景下的三个核心能力维度——感知、认知和规划。MM - UAVBENCH包含19个子任务，有超过5700个手动标注的问题，所有问题均源自从公共数据集收集的真实世界无人机数据。对16个开源和专有MLLMs进行的大量实验表明，当前的模型难以适应低空场景复杂的视觉和认知需求。我们的分析进一步揭示了诸如空间偏差和多视图理解等关键瓶颈，这些瓶颈阻碍了MLLMs在无人机场景中的有效部署。我们希望MM - UAVBENCH能推动未来针对现实世界无人机智能的稳健可靠MLLMs的研究。

首发！低空无人机场景大考：多模态大语言模型的感知、思考与规划能力，到底行不行？图2

首发！低空无人机场景大考：多模态大语言模型的感知、思考与规划能力，到底行不行？图3

3. 效果展示

图6：多模态大模型在 MM-UAVBENCH 上的定性失败案例分析

首发！低空无人机场景大考：多模态大语言模型的感知、思考与规划能力，到底行不行？图4

4. 主要贡献

我们提出了MM - UAVBENCH，这是一个新的综合基准，用于评估多模态大语言模型（MLLMs）在低空无人机场景下19项任务中的感知、认知和规划能力。
我们使用真实世界的无人机数据集构建了MM - UAVBENCH，其中包含手动标注和规则转换的任务，共产生了5702个高质量标注，确保了数据的真实性和可控的任务难度。推荐课程：
我们在MM - UAVBENCH上对一系列MLLMs进行了基准测试，并提供了详细分析，揭示了关键局限性，强调了针对现实世界应用开发面向无人机的MLLM设计的必要性。

5. 基本原理是啥？

MM - UAVBENCH任务分层设计

感知（Perception）：

该维度包含分类、OCR和计数三个子类别。分类任务用于识别图像中对象或场景的类别，如在无人机场景中识别土地覆盖类型（道路、建筑、农田等）和交通工具（汽车、船只、飞机等），还包括大量车辆方向分类任务，对道路安全监测和轨迹预测至关重要；OCR主要识别图像中的文本和符号信息，重点是从道路标志、标记和交通信号中提取信息，以支持导航和交通管理；计数任务用于估计对象（如车辆、人员或动物）的数量，在无人机场景中对交通流量分析、人群密度监测和野生动物保护有重要价值。

认知（Cognition）：

基于推理目标，可分为对象级、场景级和事件级推理。对象级推理是对单个或多个目标对象在过去、现在和未来的时空序列中的位置和行为进行推理，有助于分析对象轨迹、行为模式和异常情况；场景级推理包括场景属性理解、场景损坏评估（如火灾、洪水）和场景流量预测，旨在理解整体环境状态及其动态变化；事件级推理是对事件的原因、内容、预测和时间顺序进行推理，帮助无人机识别事件并预测其趋势。

规划（Planning）：

基于规划实体，可分为无人机到无人机规划和无人机到地面规划（包括协同规划）。无人机到无人机规划针对小型无人机群执行联合任务，从任务分配和容错两个角度进行规划。任务分配基于信息最全面的无人机（指挥无人机）的视角，为每个无人机分配角色和路径以优化整体群效率；容错确保即使个别无人机失败或受到干扰，群仍能完成任务，对多无人机协同跟踪、检查和搜索等操作至关重要。无人机到地面规划包括地面目标规划和空地协同规划，无人机根据环境条件和任务目标指导地面代理（如救援团队或车辆）的移动以及自身的轨迹，实现空中和地面系统的有效协调。

MM - UAVBENCH数据集构建

数据收集：

收集开源数据集并进行重新标注来构建MM - UAVBENCH。这些数据集涵盖城市和荒野等多样环境，以及自然灾害（如洪水、野火）和人为事件（如暴力事件、交通事故）等极端场景，在时间维度（白天/夜晚、季节变化、天气条件）和地理维度（国家、景观）上具有显著多样性。选择的原始数据集遵循两个主要标准：一是数据由无人机在现实世界中收集；二是数据集包含丰富的注释，有利于生成多项选择题。对于视频数据集，将帧统一降采样到12 fps，既简化手动注释，又符合基于多模态大语言模型的视频处理主流实践。

问答注释：

采用直接人工注释和从现有数据集进行规则转换两种方法。对于人工注释，大多数任务为注释者提供预定义的任务模板，但对于感知导向任务，仅依靠“模板 + 注释者判断”不足以控制任务难度。例如在场景分类中，为提高难度，先使用Qwen2.5 - VL - 72B合成场景分类问题，通过丰富选项的细粒度细节来增加难度，然后让Qwen2.5 - VL - 72B和Qwen2.5 - VL72B回答这些合成问题，选择两个模型答案不一致的情况交给人工注释者。对于选项复杂的任务（如规划任务），利用多模态大语言模型扩展选项，增强干扰项的合理性。对于涉及异常事件和自然灾害的数据集，先应用基于规则的方法自动合成计数任务和场景损坏评估的多项选择题，经过专家验证后，再由多模态大语言模型进一步细化以适应任务设计。

质量控制：

包括注释准确性控制和任务难度控制。注释准确性控制方面，MM - UAVBENCH的所有任务都源于人工注释，即使是从现有数据集改编的任务，也只保留经过人工注释或验证的样本。每个样本至少由两名专业研究人员交叉检查，以确保正确性并减少注释偏差。针对注释者可能存在的分歧，领域专家制定了基于场景语义和无人机功能角色的详细注释指南。对于事实任务，进一步规范回答视角。任务难度控制方面，通过系统的干扰项设计调整挑战水平。在事实任务中，干扰项从关键帧中与目标共现或外观和状态相似的对象中选择，通常占图像面积小于10%（大多数情况下小于1%）。在假设任务中，利用大模型辅助人类注释者，但严格控制答案和干扰项的粒度，确保它们关注明显可区分的因素，保持任务的可区分性和有效性。

首发！低空无人机场景大考：多模态大语言模型的感知、思考与规划能力，到底行不行？图5

首发！低空无人机场景大考：多模态大语言模型的感知、思考与规划能力，到底行不行？图6

首发！低空无人机场景大考：多模态大语言模型的感知、思考与规划能力，到底行不行？图7

6. 实验结果

文章对MM - UAVBENCH基准进行了实验，评估了多种多模态大语言模型（MLLMs）在低空无人机场景中的表现，主要实验结果如下：

定量结果

模型适应能力有限：人类评估者在基准上平均准确率达80.4%，而现有MLLMs难以有效适应低空无人机任务。人类在认知和规划任务上得分达78% - 100%，MLLMs除一项认知任务外，最佳得分在40% - 73%。Gemini 2.5 Pro整体表现最佳，Qwen3 - VL - 32B在开源模型中排名最高。
专有和开源模型表现相当：专有和开源MLLMs性能差距不显著，如Gemini 2.5 Flash和GPT - 4o的整体表现处于开源模型的中等水平。
模型规模影响性能：参数规模大的模型准确率往往更高，小模型表现较差，这表明在低空无人机场景中，MLLMs在性能和可部署性之间存在权衡。

物体尺度的影响

对于有标注目标边界框的方向分类和目标回溯任务，将问题按目标大小分为小、中、大三个子集后发现，模型在大目标上的准确率高于小目标，说明当前MLLMs在目标占视野小的情况下表现不佳，物体尺度是影响模型性能的关键因素。

空间预测偏差

在方向分类任务中，对四个方向类别随机抽样100个实例进行分析，发现模型存在依赖于自身的空间预测偏差。如Qwen2.5 - VL - 72B几乎不预测左右转弯，Qwen2.5 - VL - 32B和Qwen2.5 - VL - 7B分别倾向于左转和直行，这表明MLLMs难以从无人机视角提取可靠的运动线索。

多视图理解困难

在多视图意图分析和预测任务中，多数模型的多视图准确率低于最佳单视图准确率，呈现“1 + 1 < 2”的效果。只有少数模型（如Qwen2.5 - VL - 7B和Qwen2.5 - VL - 72B在航空多视图情况下）有正向提升，说明当前MLLMs缺乏有效的视图融合能力，无法将互补视角整合为更强的预测。

以自我为中心的规划困难

在空 - 地协同规划任务中，将其分解为外中心规划和以自我为中心的规划后发现，模型在外中心规划上的表现优于以自我为中心的规划，且在需要整合两种线索的混合设置下，所有模型的性能大幅下降，表明当前MLLMs难以将预测与自身实体相结合并生成连贯的规划。

其他错误分析

事件语义错误：MLLMs无法正确解释事件的核心语义，导致对事件动态的理解错误和后续推理出现偏差。
空间推理错误：MLLMs误解二维示意图与三维现实配置之间的空间对应关系，对无人机视角、相对位置和多视图覆盖关系判断错误。
角色归因错误：MLLMs错误分配场景中实体的语义角色，如混淆跟踪对象或错误识别主要参与者，导致预测错误和无人机规划决策失误。

L2类别结果分析

细粒度定量感知能力弱：在感知维度中，计数任务（准确率约20 - 36%）的表现明显低于分类和OCR任务（准确率约50 - 80%），这表明MLLMs在航空图像的细粒度枚举和密度估计方面存在严重瓶颈。
对象级推理更具挑战性：在认知维度中，对象级推理明显弱于场景级和事件级推理，这可能与小目标尺度和有限的上下文有关，目标回溯任务的准确率随目标大小增加而提高。
处理多视图图像增加规划难度：在规划维度中，MLLMs在无人机 - 无人机协作任务（多视图输入）上的表现远不如无人机 - 地面任务（单视图输入），这表明MLLMs在处理和整合不同多视图输入信息方面存在根本局限，而这对于复杂的群体规划至_关重要_。

思维链（CoT）评估

使用CoT能显著提高模型的平均性能（Qwen3 - VL - 8B提升2.55，MiMo - VL - 7B - RL提升5.55），但在不同任务上的提升效果差异很大。CoT能改善感知任务（如方向分类、类别无关计数）和多数认知维度中的事件级任务的性能，但在对象级推理任务中表现不佳，可能是因为初始感知或目标定位困难时，明确的中间步骤会引入错误。首发！低空无人机场景大考：多模态大语言模型的感知、思考与规划能力，到底行不行？图8

首发！低空无人机场景大考：多模态大语言模型的感知、思考与规划能力，到底行不行？图9

7. 总结 & 未来工作

总结

在这项工作中，我们推出了MM - UAVBENCH，这是一个全面的基准，旨在评估多模态大语言模型（MLLMs）在低空无人机场景中的感知、认知和规划能力。MM - UAVBENCH提供了一个多样化、高保真且针对特定领域的测试平台，用于评估MLLM的性能。通过广泛的评估和详细的分析，我们发现虽然当前的MLLMs展现出了有前景的通用能力，但它们在应对无人机特定挑战（如目标尺度变化、空间感知偏差、多视图理解和以自我为中心的规划）方面存在困难。这些发现凸显了通用多模态智能与实际无人机操作要求之间的明显差距。

未来与展望

我们希望MM - UAVBENCH能够激发未来的研究，促使开发出更强大、可靠且面向无人机的MLLMs，以用于实际部署。

本文仅做学术分享，如有侵权，请联系删文。