即插即用卷积线性融合Transformer,涨点起飞!

学姐带你玩AI 2025-08-27 18:10
资讯配图

题目:ABC:Attention with Bilinear Correlation forInfrared Small Target Detection

论文地址:https://arxiv.org/pdf/2303.10321

代码地址: https://github.com/PANPEIWEN/ABC

资讯配图

创新点

  • 提出一种基于Transformer架构的CLFT模块,打破传统CNN局部感受野限制,同时解决纯Transformer缺乏卷积归纳偏置的问题。

  • 通过点卷积和全连接层计算双线性注意力矩阵,显式建模目标与背景的全局相关性,增强目标特征并抑制噪声。

  • 针对深层特征分辨率低、语义稀疏的问题,设计U型空洞卷积结构,通过逐步调整感受野(先扩大后缩小)精细化处理深层特征,进一步滤除噪声并细化目标边界(如图1第四列特征图所示)。

方法

本文提出一个名为ABC的端到端红外小目标检测框架,整体沿用类UNet的编码-解码结构,但在关键位置嵌入两个专门设计的新模块:编码阶段先用一层普通卷积初步降噪,随后堆叠三层“卷积-线性融合Transformer(CLFT)”——该模块把传统自注意力改造成双线性注意力机制,先用两个1×1卷积将输入特征压成两个单通道图,再经全连接得到查询q与键k,通过矩阵乘法生成H×H的双线性注意力矩阵,经Softmax后与由普通卷积和空洞率分别为2、4、2的三路空洞卷积并行提取的value特征做加权融合,从而同时捕获局部细节与全局上下文;解码阶段则在深层小分辨率特征处插入“U形卷积-空洞卷积(UCDC)”模块,该模块先以逐步扩大的空洞卷积扩大感受野滤除残留噪声,再以逐步缩小的空洞卷积精细刻画极微小目标轮廓,并通过跳跃连接补偿信息,最后经逐点卷积输出分割结果;整个网络在训练阶段采用SoftIoU损失、AdamW优化器及多项式学习率衰减,通过消融实验验证CLFT与UCDC缺一不可,并在四个公开数据集上取得新的SOTA。

红外图像经不同处理阶段的特征可视化对比解析

资讯配图

本图第一幅为原始红外图像,红色框标出真实小目标,黄色框标出背景噪声;第二幅显示仅经过一层普通卷积后,特征图仍被大量噪声干扰,目标几乎被淹没;第三幅显示通过CLFT模块后,噪声被显著抑制,目标特征得到增强并清晰可见;第四幅显示再经过UCDC模块精细处理后,目标轮廓更加锐利,背景更加干净,验证了所提模块的有效性。

ABC整体网络架构

资讯配图

本图整体呈U形编码-解码布局,左侧编码器由“Conv模块×1+CLFT模块×3”组成,右侧解码器由“UCDC模块×1+Conv模块×3”组成,中间通过UCDC过渡层连接并采用跳跃连接实现跨层特征融合;CLFT模块内部先由BAM生成双线性注意力矩阵,再与并行卷积分支和空洞卷积分支提取的value特征加权融合,最后经前馈网络输出;UCDC模块呈U形堆叠两层普通卷积与三层空洞率2-4-2的空洞卷积,利用小分辨率特征进一步细化目标;末端通过逐点卷积分割头输出最终掩膜。

NUAA与IRSTD1k数据集上不同方法的ROC曲线对比解析

资讯配图

本图实线为NUAA数据集结果,虚线为IRSTD1k数据集结果,ABC曲线整体位于最左上角,表明其在两种场景下的真正率最高、假正率最低,显著优于ACM、AGPCNet、DNANet、RKFormer、ISNet等对比方法。

实验

资讯配图

本表表1将IPI、RIPT、PSTNN三种传统方法与ACM、AGPCNet、DNANet、RKFormer、ISNet五种深度学习模型在NUAA、IRSTD1k、SIRSTAUG、NUDT四个公开数据集上的IoU、nIoU、F1三项指标进行了全面对比,结果显示传统方法因依赖先验且对复杂背景敏感,在所有数据集上指标均显著落后,例如IPI在IRSTD1k上IoU仅14.98%,RIPT更低至11.33%;CNN类深度模型虽优于传统方法,但仍受限于局部感受野与深层目标丢失,如ACM在NUAA上IoU 72.88%,在IRSTD1k上63.39%,ISNet在IRSTD1k上68.77%;RKFormer虽融合Transformer与CNN但仅作并联,性能未充分释放,IRSTD1k IoU 64.12%;而本文ABC在所有数据集、所有指标上均夺得最高,NUAA上IoU 81.01%、nIoU 79.00%、F1 89.51%,较第二名ISNet提升约1–2个百分点,在最具挑战的IRSTD1k上IoU 72.02%、nIoU 68.81%、F1 83.73%,分别领先第二名DNANet约3.15、1.28、2.09个百分点,SIRSTAUG与NUDT同样保持领先,充分证明了CLFT与UCDC模块结合后在抑制噪声、保留并细化小目标方面的显著优势。

-- END --


最后对卷积神经网络创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入卷积神经网络CNN交流群!
资讯配图

关注“学姐带你玩AI”公众号,回复“CNN创新

领取7大类CNN创新论文合集+开源代码

往期推荐:





(CVPR 2025)卷积网络复活!港大最新改进版CNN涨点起飞!


CNN+Transformer+Mamba,多热点联合=不撞车+高分保证√


2025年CNN与Transformer融合的创新点思路


天选思路怎能不会!小波变换+CNN完美融合,最新idea发了CV顶会!


CNN-LSTM用于时间序列预测,发二区5分+没问题!



ACCEPT
据说点👇推荐的都Accept了!
资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号