CVPR25:特征融合消除CLIP类间混淆

学姐带你玩AI 2025-07-16 18:15

论文题目:Logits DeConfusion with CLIP for Few-Shot Learning

论文地址:https://arxiv.org/pdf/2504.12104

代码地址:https://github.com/LiShuo1001/LDC

创新点

  • 本文提出了一种新颖的 Logits DeConfusion (LDC) 方法,通过结合 Multi-level Adapter Fusion (MAF) 模块和 Inter-Class Deconfusion (ICD) 模块,有效地学习并消除 CLIP 的 logits 中的类别间混淆。这种方法不仅能够显著提高分类性能,还能缓解类别间混淆问题。

  • MAF 模块通过从 CLIP 图像编码器的不同层次提取特征并进行融合,增强特征表示能力。这种多级特征融合方法不仅保留了低层次特征的细节信息,还利用了高层次特征的语义信息,从而提高了模型对少样本学习任务的适应性。

  • ICD 模块通过可学习的模块和残差结构,从 CLIP 的 logits 中学习并消除类别间混淆模式。ICD 模块利用增强特征(enhanced features)作为先验信息,通过残差结构去除这些混淆模式,从而获得更清晰的类别区分。

方法

本文提出了一种名为 Logits DeConfusion (LDC) 的方法,旨在解决基于 CLIP 的少样本学习(Few-Shot Learning, FSL)任务中类别间混淆的问题。LDC 方法的核心在于通过学习消除 CLIP 的 logits 中的类别间混淆,从而提高分类性能。首先,本文针对 CLIP 在少样本学习任务中存在严重类别间混淆的问题,提出了一种新颖的解决方案。CLIP 作为一种强大的视觉-语言模型,在零样本学习和少样本学习任务中表现出色,但其 logits 在下游任务中存在明显的类别间混淆现象,这主要是由于 CLIP 的预训练策略导致的。为了解决这一问题,本文提出了 Logits DeConfusion (LDC) 方法。LDC 方法通过结合 Multi-level Adapter Fusion (MAF) 模块和 Inter-Class Deconfusion (ICD) 模块,有效地学习并消除 CLIP 的 logits 中的类别间混淆。

CLIP基础零样本学习中的类别间混淆

本图展示了CLIP在零样本学习(ZSL)任务中logits的类别间混淆问题。图(a)显示了CLIP原始的logits存在严重的类别间混淆,即不同类别的预测值难以区分。图(b)展示了经过Logits DeConfusion处理后,logits的类别间混淆被消除,类别区分更加清晰。图(c)是Logits DeConfusion方法的示意图,通过建模并消除类别间混淆,改善了分类性能。

LDC的整体架构

本图展示了Logits DeConfusion(LDC)的整体架构,包含四个主要模块:零样本CLIP(ZS-CLIP)、多级适配器融合(MAF)、类别间去混淆(ICD)和自适应logits融合(ALF)。ZS-CLIP模块提供原始的零样本logits;MAF模块从CLIP图像编码器的不同层级提取特征并融合;ICD模块通过残差结构学习并消除类别间混淆;ALF模块将MAF和ICD的logits进行自适应融合,最终生成更清晰的logits。图中还展示了用于优化模型的损失函数,包括交叉熵损失和相似性损失。

MAF模块的细节

本图详细展示了多级适配器融合(MAF)模块的结构。MAF模块从CLIP图像编码器的四个不同层级提取特征(f1, f2, f3, f4),通过不同的适配器(Adapter)将这些特征转换为新的特征(z1, z2, z3, z4),然后通过融合机制将这些特征融合为一个增强特征(ze)。图中还展示了两种融合机制:加权融合(WF)和可学习融合(LF)。加权融合通过预设权重对不同层级的特征进行加权求和,而可学习融合通过一个额外的适配器对特征进行融合。

实验

本表展示了本文提出的 Logits DeConfusion (LDC)方法与其他多种基于CLIP的少样本学习(Few-Shot Learning, FSL)方法在11个图像分类基准数据集上的平均分类性能对比。从表中可以看出,LDC方法在所有少样本设置(1-shot到16-shot)下均取得了最佳性能。例如,在16-shot设置下,LDC方法的平均准确率达到了79.78%,相比其他方法有显著提升。这表明LDC能够有效地解决CLIP在少样本学习任务中类别间混淆的问题,通过其多级适配器融合(MAF)和类别间去混淆(ICD)模块,显著提升了分类性能。总体而言,本表清晰地展示了LDC方法在少样本学习任务中的优势,尤其是在处理类别间混淆问题时的显著效果。通过多级特征融合和去混淆模块的设计,LDC不仅提高了分类准确率,还增强了模型对新领域的适应能力,验证了其在少样本学习场景中的有效性和优越性。

-- END --


最后对CLIP创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入CLIP交流群!

关注“学姐带你玩AI”公众号,回复“CLIP改进

领取CLIP魔改方案合集+开源代码

往期推荐:





多模态CLIP魔改版太强了!直接上岸CVPR!


CLIP还能再战 !结合Mamba超越传统,仅用1/5参数就达到天花板性能


最新热点!结合创新!小样本学习+CLIP:超好上手的思路,爽发顶会顶刊


2025年,多模态特征融合只会更火


学会这种多尺度特征融合思路,CCF A和SCI一区还不是小菜一碟!



ACCEPT
据说点赞的都Accept了!
图片

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IP
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号