AAAI 2025 | FBRT-YOLO: 更快更优的实时航拍图像检测方法

该论文发表于AAAI Conference on Artificial Intelligence 2025（CCF A），题目为《FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection》。

本文第一作者为北京理工大学的肖遥，通讯作者为北京理工大学的许廷发教授与李佳男副教授。

论文链接：

https://arxiv.org/abs/2504.20670

论文概要

在航拍图像检测任务中，尽管已有许多方法在一定程度上缓解了小目标检测问题，但在提升小目标检测性能的同时，兼顾检测精度与推理效率仍是艰巨的挑战，这也成为制约技术发展的关键瓶颈。

针对上述问题，本文提出了一种面向航拍图像检测的全新实时检测器系列，命名为 FBRT-YOLO，旨在解决检测精度与效率之间的不平衡问题。该方法的核心在于两个新颖的轻量化模块：特征互补映射模块（FCM）和多核感知单元（MKP），它们用于增强对航拍图像中小目标的感知能力；此外，本文还对网络结构进行了针对性的冗余削减。

在VisDrone、UAVDT和AI-TOD三个主流航拍图像数据集上的大量实验证明，FBRT-YOLO 在性能与速度方面均优于多种现有的实时检测器。FBRT-YOLO框架图如图 1所示。

资讯配图

图1 FBRT-YOLO框架图

研究背景

近年来，深度神经网络的发展显著提升了对低分辨率自然图像的目标检测性能。然而，当这些方法应用于高分辨率航拍图像，并部署于资源受限的无人机等边缘设备时，其精度与效率的平衡点远未达到理想状态。其主要挑战包括：（1）检测航拍图像中尺寸较小或被背景遮挡的目标；（2）在计算资源有限的设备上，实现检测精度与实时性的平衡。

为提升小目标检测性能，提高图像分辨率是一种常见的做法，但这也显著增加了计算负担，影响了实时性能的实现。同时，深层网络提供的低分辨率语义信息与浅层网络提供的高分辨率空间信息之间存在不匹配问题。

为了解决这一问题，特征金字塔结构（FPN）被广泛采用，用于融合深浅层特征，增强小目标定位与多尺度特征表达，同时提升计算效率。然而，传统主干网络在向下传递特征时难以有效保留浅层的空间细节，导致后续的特征融合存在信息错配（information mismatch）问题。

研究方法

为应对航拍图像目标检测中的挑战，本文设计了一种能够兼顾检测精度与实时效率的有效网络架构。本文提出了一种新型检测网络，包含两个轻量级模块：特征互补映射模块（FCM）和多核感知单元（MKP）。

首先，为了缓解主干网络中的信息不平衡问题，并促进语义信息与空间位置信息的有效融合，设计了特征互补映射模块（FCM）。

FCM先将输入的特征图在通道维度上一分为二。一路专门负责学习语义信息（X1），另一路专门负责保留空间信息（X2）。语义分支（X1）通过一个3×3卷积生成富含语义的特征XC；空间分支（X2）则通过一个1×1逐点卷积生成保留了精细空间信息的特征XS。XC首先经过一个DWConv操作得到XD,然后XD经过通道引导模块和Sigmoid激活函数后得到一个通道注意力权重向量ω₂；同样的，经过类似操作得到空间注意力向量ω₁，最终，通过注意力加权的方式将二者融合（XS⊗ω₁+XC⊗ω₂）得到XFCM，这样操作可以实现浅层空间位置信息向深层的有效传递，从而增强特征对齐能力，提高小目标的定位效果，FCM模块如图 2 所示。

图2 FCM模块

其次，考虑到航拍图像中的小目标通常只占据极少像素，极易在卷积神经网络的特征提取过程中发生信息丢失，我们进一步从网络感受野角度出发，提出了多核感知单元（MKP）。

该模块使用k=3,5,7等多尺寸卷积核，串行地提取从局部到全局的多尺度特征。本文将MKP用于替换网络的最终下采样层，使网络能够感知多尺度目标，在提升特征捕获能力的同时进一步简化网络结构。MKP单元如图3所示。

资讯配图

图3 MKP单元

最后，本文还对网络进行了冗余削减的优化操作（Redundancy Reduction）。在需要将特征图尺寸减半的下采样过程中，传统方法采用的步长为2的3×3标准卷积计算成本较高。本文采用了一种更高效的替代方案：先通过步长为2的3×3分组卷积进行空间下采样，再利用1×1的逐点卷积进行通道信息整合。这种“先分组、后逐点”的策略极大地降低了计算开销。

实验结果

本文采用三个主流的航拍数据集，分别是VisDrone（26k+图片，10个类别，中小型尺寸）,UAVDT（100视频，三个类别，小型）,AI-TOD（28k图片，三个类别，极小型目标），评价指标有：mAP、AP₅₀、AP₇₅、Params、FLOPs、FPS。

在VisDrone数据集上(表 1)，FBRT-YOLO的N/S/M/L/X 全系列模型，相比于同等规模的YOLOv8,YOLOv9,YOLOv10,和RT-DETR等当前最先进的实时检测器，实现了“参数更少、速度更快、精度更高”的全面领先。

表1

在UAVDT数据集(表 2)：FBRT-YOLO的AP达到了18.4%，显著优于之前的多种方法如 GLSAN 17.0%)和CEASC(17.1%)，这证明了该方法在不同场景的航拍图像上同样有效。

表2

在AI-TOD数据集 (表 3)，FBRT-YOLO-S相比基线YOLOv8-S，在参数量和FLOPs大幅降低的同时，AP提升了1.1%，AP₅₀ 提升了2.2%。直接证明了FCM和MKP模块对于提升小目标检测性能的有效性。

表3

本文还对RR（冗余削减策略）、FCM(特征互补映射模块)、MKP(多核感知单元)进行了消融实验（表 4）。仅应用RR策略，便可在AP几乎无损的情况下，使模型的参数量和FLOPs降低超过10%，验证了其在效率提升上的显著作用。在RR的基础上加入FCM，模型的AP提升了约0.9%，AP50提升了1.4%，且计算量进一步降低。这证明了FCM在不增加成本的情况下，有效改善了特征质量，提升了精度。在RR+FCM的基础上加入MKP，模型的AP和AP50再次获得显著提升（AP提升0.7%，AP50提升1.8%），最终达到了最佳性能。这证明了MKP对于增强多尺度感知能力的关键作用。

资讯配图

表4

结论

本文提出了一种面向航拍图像检测的全新实时检测器系列，命名为 FBRT-YOLO。该方法引入了两个轻量级模块：特征互补映射模块（FCM），旨在增强丰富语义信息与精确空间位置信息的融合能力；以及多核感知单元（MKP），用于加强多尺度目标的感知能力，提升网络对不同尺度特征的捕捉效果。此外，为了更好地适应航拍图像检测任务，我们还对传统检测器中存在的冗余结构进行了精简，从而进一步提升网络的运行速度。在VisDrone、UAVDT和AI-TOD三个航拍图像数据集上的大量实验证明，FBRT-YOLO 在检测精度与效率之间实现了高度平衡的性能表现。

撰稿人：吴庆国

审稿人：梁瑾

脑机接口与混合智能研究团队

团队主页

www.scholat.com/team/hbci