“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!


一、论文信息

论文题目:UniConvNet: Expanding Effective Receptive Field while Maintaining Asymptotically Gaussian Distribution for ConvNets of Any Scale中文题目:UniConvNet:在保持任意卷积网络渐近高斯分布的同时扩展有效感受野论文链接:https://arxiv.org/pdf/2508.09000

二、论文概要



图2. UniConvNet(本方案)与其他模型的参数量及准确率对比。圆圈面积及其中数字代表相应模型的计算量(FLOPs)。UniConvNet实现了最佳准确率-参数量与准确率-计算量的平衡。
1. 研究背景:
研究问题: 当前卷积神经网络(ConvNets)在处理长距离依赖关系时,通常通过扩大卷积核或堆叠小卷积核来实现大有效感受野(ERF)。然而,这种方法往往伴随着参数量和计算成本的显著增加,并且容易破坏渐进高斯分布(AGD),导致性能提升受限。因此,如何在扩展ERF的同时保持AGD,成为设计高效卷积网络的关键问题。 研究难点: 扩展ERF与维持AGD之间的平衡是一个重要挑战。传统方法如ResNet通过堆叠3×3卷积核实现较小的ERF,但其感受野规模有限;而采用超大卷积核的方法(如SLaK-T和UniRepLKNet-T)虽然实现了更大的ERF,却破坏了AGD。此外,如何在减少参数量和计算成本的前提下设计高效的卷积模块,也是一个亟待解决的技术难题。 文献综述:相关研究包括基于Transformer的视觉模型(如ViTs)和传统卷积网络(如ResNet、EfficientNet等)。近期工作尝试通过大卷积核或稀疏卷积技术捕捉长距离依赖关系,例如RepLKNet和SLaK。然而,这些方法在提升性能的同时带来了高昂的计算开销。相比之下,经典小卷积核网络(如ResNet)虽计算效率高,但受限于较小的ERF。本文提出的UniConvNet结合了两者的优点,通过引入感受野聚合器(RFA)和层算子(LO),在扩展ERF的同时保持AGD,为卷积网络的设计提供了新的思路。
感受野聚合器:为了在扩展有效感受野(ERF)的同时保持渐近高斯分布(AGD),研究引入了感受野聚合器(RFA)。具体来说,输入图像根据RFA的层数N沿通道维度分为N+1部分,形成N+1个头。输入头A1通过层操作符(LO)处理后,生成新的头A2。LO模块由放大器(Amp)和判别器(Dis)组成,Amp通过逐元素乘法扩展感受野并放大像素影响,而Dis则提供来自新小尺度像素的影响,从而构建一个两层的AGD。最终,三层层级的RFA模块能在阴影模块内使用渐进大核卷积7×7、9×9和11×11实现四层AGD。 层操作符:层操作符(LO)从感受野的角度设计,是RFA中的核心操作符。对于第n层,LO的三个不同输入an,1、an,2和hn通过三个独立的1×1卷积投影得到。LO通过两个组件——判别器(Dis)和放大器(Amp)交互生成。Amp对an,1应用GELU激活和深度方向的大核K×K卷积,然后与an,2进行逐元素乘法操作,这扩大了感受野并增强了其上的像素影响。Dis结合深度方向K×K和k×k卷积的特征,为大K×K感受野引入小尺度新像素的影响,建立两层判别性AGD。 三层RFA用于UniConvNet:本研究中,对于输入图像大小为224×224的情况,使用N=3构建三层RFA。渐进大核大小K计算为K=2n+5(n∈[1,N]),小核大小为k=3。因此,RFA在阴影模块内使用渐进大核卷积7×7、9×9和11×11实现四层AGD,这是224×224图像的最优配置。最小核大小7×7比3×3和5×5卷积提供显著更大的感受野。

三、实现原理

一、UniConvNet整体架构:

图5. UniConvNet整体架构。
核心组件——Receptive Field Aggregator (RFA): 名为“感受野聚合器”(RFA)的模块。
输入分割:将输入图像沿通道维度划分为多个部分(heads),分为A1和H1, ..., HN等多头数据流。
递归处理:每个head通过“层操作符”(Layer Operator, LO)逐步递归处理,增加通道数并形成金字塔式的通道增量,从而减少参数和计算量。
渐进式大核卷积:在LO中,使用逐元素乘法(Amplifier, Amp)和深度可分离卷积(Discriminator, Dis)分别扩展感受野和提供小尺度像素的影响,最终形成一个两层的AGD感受野。

图3. 左:感受野聚合器(RFA)。右:层操作符(LO)。

四、实验分析








五、结论

研究发现:研究引入了感受野聚合器(RFA)来扩展有效感受野(ERF)同时保持ERF的渐近高斯分布(AGD)。设计了三层RFA作为即插即用模块,可以替代ConvNets中的卷积层。基于这些设计,提出了通用卷积神经网络UniConvNet,并在广泛的视觉识别任务中评估其性能。所有UniConvNet变体均表现出优越性能,减少了参数和FLOPs。 本文贡献:此工作可能引起对遵循AGD的大ERF设计的关注,提升任何规模的ConvNet。通过提出的新方法,研究展示了如何在减少计算成本的同时确保模型的高性能,对未来ConvNet的设计具有重要指导价值。
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
收藏,分享、在看,给个三连击呗!