
题目:OverLoCK: An Overview-first-Look-Closely-next ConvNetwith Context-Mixing Dynamic Kernels
论文地址:https://arxiv.org/pdf/2502.20087v2
代码地址:https://github.com/LMMMEng/OverLoCK

创新点
提出了一种模仿人类视觉系统的“先概览后聚焦”(Overview-first-Look-Closely-next)机制,通过先对图像进行整体但粗糙的分析(概览),然后对特定区域进行更细致的检查(聚焦),从而提高模型的感知能力。
提出了一种新的动态卷积方法,能够动态地建模长距离依赖关系,同时保留卷积的局部归纳偏差。
设计了一种动态的上下文引导流,使得上下文先验(context prior)在聚焦网络中不断更新,避免上下文信息的稀释。
方法
本文的主要研究方法是提出了一种名为 OverLoCK的新型纯卷积网络(ConvNet)架构,该架构通过模仿人类视觉系统的“先概览后聚焦”(Overview-first-Look-Closely-next)机制,结合深度阶段分解策略和动态上下文混合卷积,实现了对长距离依赖关系的建模,同时保留了卷积的局部归纳偏差。具体来说,OverLoCK 将网络分解为三个子网络:基础网络、概览网络和聚焦网络。基础网络负责编码低层次和中层次信息,概览网络快速生成语义上有意义但质量较低的上下文表示,而聚焦网络则利用这些上下文信息生成更准确、更丰富的高层表示。在聚焦网络中,通过动态门控机制和上下文先验的更新,实现了对特征图的动态调制和卷积核的动态生成,从而在保持高效计算的同时,显著提升了模型的性能。
OverLoCK与其他代表性骨干网络在视觉任务上的性能比较

本图展示了 OverLoCK 与其他代表性骨干网络(如 ConvNet、Transformer 和 Mamba 基模型)在不同视觉任务上的性能对比。图中通过柱状图的形式,直观地展示了 OverLoCK 在图像分类、目标检测和语义分割任务上的优势。例如,在图像分类任务中,OverLoCK-T 的 Top-1 准确率显著高于其他模型,同时计算量(FLOPs)和参数量(Params)却更少。在目标检测和语义分割任务中,OverLoCK 也展现了更高的 APb(边界框平均精度)和 mIoU(平均交并比),证明了其在多种视觉任务中的优越性能。
有效感受野(ERF)和类激活图(CAM)的可视化比较

(a) 比较了不同骨干网络在深层阶段(如 Stage 3 和 Stage 4)的最后一个层的有效感受野(ERF)。结果显示,尽管 OverLoCK-T 是一个纯 ConvNet,但其有效感受野比强调全局建模的 VMamba-T 更大,表明 OverLoCK 能够更有效地捕捉长距离依赖关系。
(b) 通过 Grad-CAM 生成的类激活图(CAM)可视化了不同模型在深层阶段的特征图。结果显示,传统的层次化模型在特征图中难以准确地定位具有正确类别标签的对象,尤其是在远离分类器层的 Stage 3。相比之下,OverLoCK 提出的新网络架构能够在 Stage 3 和 Stage 4 中生成更准确的类激活图,证明了其在特征定位和语义理解方面的优势。
OverLoCK网络架构

本图详细展示了 OverLoCK 网络的整体架构,包括三个子网络:基础网络(Base-Net)、概览网络(Overview-Net)和聚焦网络(Focus-Net)。基础网络通过逐步下采样输入图像,生成中层次特征图。概览网络快速生成语义上有意义但质量较低的概览特征图,作为上下文先验。聚焦网络利用上下文先验和基础网络的输出,逐步细化特征图,生成更准确、更丰富的高层表示。图中还展示了每个子网络的具体结构和连接方式,以及动态上下文混合卷积(ContMix)在聚焦网络中的应用。
实验

本表提供了 OverLoCK 模型在 ImageNet-1K 数据集上与其他多种先进模型的性能对比,涵盖了计算复杂度(FLOPs)、参数量(Params)和 Top-1 准确率三个关键指标。这些指标综合反映了模型在效率与性能方面的平衡能力。从表中可以看出,OverLoCK 模型的各个变种(XT、T、S、B)在不同规模下均展现出显著的性能优势。例如,OverLoCK-XT 在极低的计算复杂度(2.6 G FLOPs)和参数量(16 M)下,达到了 82.7% 的 Top-1 准确率,这一成绩不仅超越了同为轻量级的 BiFormer-T(2.2 G FLOPs,13 M 参数,81.4% 准确率)和 UniRepLKNet-N(2.8 G FLOPs,18 M 参数,81.6% 准确率),还与一些计算复杂度更高的模型相媲美。这表明 OverLoCK-XT 在保持高效的同时,能够提供出色的分类性能。
-- END --

关注“学姐带你玩AI”公众号,回复“CNN创新”
领取7大类CNN创新论文合集+开源代码
