
题目:A REVIEW OF YOLOV12:ATTENTION-BASED ENHANCEMENTSVS.PREVIOUS VERSIONS
论文地址:https://arxiv.org/pdf/2504.11995

创新点
提出一种区域注意力机制,通过将特征图划分为非重叠的水平或垂直区域(而非全局或窗口注意力),显著降低自注意力的计算复杂度(从O(n²)降至O(n²/2)),同时保留大感受野,兼顾速度与精度。
改进传统ELAN结构的梯度阻塞问题,引入残差直连路径(带缩放因子0.01)优化梯度流,提升深层模型的训练稳定性与收敛速度,尤其适用于大模型(L/X尺度)。
方法
本文采用系统性文献综述的方法,以YOLO系列的技术演进为经,以注意力机制与实时检测性能的平衡为纬,通过纵向梳理YOLOv1至YOLOv11的架构更迭,横向对比YOLOv12与RT-DETR等前沿模型的基准数据(COCO 2017 mAP、延迟、FLOPs、参数量),并在RTX 3080、A5000、A6000及T4多GPU以及CPU平台上进行严格的推理速度与硬件利用率实验,辅以对A²模块、R-ELAN、FlashAttention等关键创新的结构剖析与消融分析,从而验证YOLOv12在保持实时性的同时引入注意力机制的有效性与优越性。
YOLO系列架构发展脉络图

本图以时间轴形式展示了YOLOv1至YOLOv12每一代的核心改进,如v2的anchor、v3的FPN、v4的CSPDarknet、v8的anchor-free以及v12的CNN-Transformer混合设计,突出显示架构从纯CNN向融合注意力机制的演进趋势,为全文的技术背景铺垫。
不同局部注意力策略对比

本图通过可视化特征图划分方式,直观比较Shifted Window、Criss-Cross、Axial Attention与本文提出的Area Attention(A²)。A²仅通过简单的reshape将特征图按水平或垂直切分为非重叠区域,无需额外掩码或复杂索引,计算量减半且感受野仍优于传统局部注意力,验证了其在速度与精度上的折中优势。
CSPNet、ELAN、C3k2与R-ELAN结构对照

本图以方块流程图形式展示四种特征融合单元的内部路径。CSPNet采用两分支部分连接;ELAN在CSP基础上增加多并行卷积但无残差;C3k2进一步加深却仍有梯度阻塞;R-ELAN则通过单一统一分支+残差直连(缩放0.01)解决梯度回传难题,同时减少冗余计算,突出R-ELAN对训练稳定性和收敛速度的改进。
实验

本表展示了在MS COCO 2017基准上横向对比了YOLOv10-N、YOLOv11-N、YOLOv12-N及RT-DETR-R18等九款模型,纵览mAP、延迟、FLOPs、参数量四项指标:YOLOv12-N以40.6 mAP领先YOLOv10-N(38.5)和YOLOv11-N(39.4),延迟1.64 ms与对手持平;YOLOv12-S达48.0 mAP,仅2.61 ms,比RT-DETR-R18快42%且仅需其36%计算量;YOLOv12-L与X继续以53.7/55.2 mAP小幅超越YOLOv11同级,而FLOPs与参数增幅控制在4%以内,整体揭示YOLOv12在精度、速度、计算量三维权衡上的全面优势。
-- END --

关注“学姐带你玩AI”公众号,回复“YOLO创新”
领取113篇YOLO前沿论文+代码+数据集
