NeurIPS25 Spotlight | 可解释高效注意力

学姐带你玩AI 2025-10-14 18:10
NeurIPS25 Spotlight | 可解释高效注意力图1

题目:Towards Interpretable and Effcient Attention:Compressing All by Contracting a Few

论文地址:https://arxiv.org/pdf/2509.16875

NeurIPS25 Spotlight | 可解释高效注意力图2

创新点

  • 本文通过最大化编码率差(MCR²)的变体,将输入token压缩至由少量代表性token(representatives)张成的子空间中,既降低了计算复杂度(从二次降至线性),又通过子空间投影保留了数据的结构化表示,从而同时满足可解释性与效率需求。这一创新填补了现有研究中“解释性-效率”联合优化的空白。

  • 基于统一优化目标,本文通过梯度下降的展开过程推导出CBSA机制,其核心思想是通过少量代表性token的“收缩-广播”操作实现注意力计算。

方法

本文主要提出了一种名为Contract-and-Broadcast Self-Attention (CBSA)的注意力机制,通过统一优化目标同时解决可解释性与效率问题,针对传统自注意力机制存在的二次计算复杂度(O(N²))和缺乏内在可解释性的问题,本文基于最大编码率差(MCR²)原则提出新的优化目标:通过压缩输入token至低维子空间以降低计算开销,同时利用子空间投影保留数据的结构化表示以增强可解释性。

基于收缩-广播子空间投影的高效可解释自注意力机制


NeurIPS25 Spotlight | 可解释高效注意力图3

本图展示了Contract-and-Broadcast Self-Attention (CBSA)机制的核心架构与操作流程,其设计目标是通过压缩输入token至低维子空间并广播压缩后的信息,实现计算效率与可解释性的同步提升。本图呈现了CBSA的完整计算流程,其核心思想是通过子空间投影、代表性token提取、收缩操作与广播操作四步,将传统自注意力的二次复杂度(O(N²))降为线性复杂度(O(N))。图中从左至右依次展示了输入token的投影、代表性token的初始化与提取、收缩操作(基于代表性token的自注意力计算)以及广播操作(将收缩后的信息传播回所有token),最终输出更新后的token表示。

基于代表性token的CBSA注意力模式可视化与跨层信息传播机制


NeurIPS25 Spotlight | 可解释高效注意力图4

本图通过多组可视化实验与结构对比,系统展示了Contract-and-Broadcast Self-Attention (CBSA)机制中代表性token的核心作用及其跨层信息传播特性。图中分为上下两部分:上半部分通过热力图与注意力权重分布,直观呈现代表性token如何捕捉输入序列的关键信息并广播至全量token;下半部分通过跨层注意力传播路径分析,揭示CBSA如何通过分层收缩-广播操作实现从局部到全局的语义聚合。

CBSA机制在多任务场景下的性能对比与代表性token动态演化分析

NeurIPS25 Spotlight | 可解释高效注意力图5

本图通过多任务实验对比与代表性token的动态可视化,系统验证了Contract-and-Broadcast Self-Attention (CBSA)机制在计算效率、模型精度及可解释性上的综合优势。图中分为左右两部分:左侧为CBSA与基准模型(如标准Transformer、线性注意力模型)在分类、检测、分割三类任务上的性能对比;右侧通过动态注意力热力图,展示了代表性token在训练过程中如何逐步捕捉任务相关特征并优化信息传播路径。

实验

NeurIPS25 Spotlight | 可解释高效注意力图6

本表通过系统对比不同模型规模(Tiny/Small/Base)的CBSA变体与基准模型(标准Transformer、线性注意力模型)在分类、检测、分割任务中的精度、计算复杂度及参数量,全面验证了CBSA机制在性能与效率平衡上的优越性。表中数据覆盖ImageNet分类(Top-1/Top-5精度)、COCO检测(APbox/APmask)和ADE20K分割(mIoU)三项核心任务,同时标注各模型的FLOPs(G)和参数量(M),形成多维度的量化评估框架。本表通过多任务、多规模的量化对比,全面论证了CBSA机制在性能与效率平衡上的突破性。其代表性token的收缩-广播操作不仅降低了计算复杂度,还通过分层信息传播提升了模型对复杂任务的适应能力。实验数据表明,CBSA在保持与标准Transformer相当精度的同时,将计算量减少50%-70%,参数量降低20%-40%,为高效、可解释的Transformer架构设计提供了关键实证。这一评估框架也为后续研究提供了标准化的性能-效率对比基准。

-- END --


最后对注意力机制创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入注意力机制交流群!
NeurIPS25 Spotlight | 可解释高效注意力图7

关注“学姐带你玩AI”公众号,回复“注意力全新

领取注意力机制高分论文合集+开源代码

往期推荐:











ACCEPT
据说点赞的都Accept了!
NeurIPS25 Spotlight | 可解释高效注意力图8

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IP
more
iPhone Fold再爆惊喜,果粉要集体沸腾了!
iPhone17ProMax实力碾压,把我彻底征服了!
三大运营商开启 eSIM,苹果官宣 iPhone Air 开售!
iPhone 17 系列,太猛了
iPhone Air国行周五开启预购,非合约机/官方通报小米SU7失控自燃/OpenAI官宣自研芯片
国行eSIM尘埃落定,iPhone Air「下周见」
第一!iPhone 17系列“断层领先”!
iPhoneAir国行来了 库克直播官宣 | vivoX300/Pro发布 4399起
这份目前最全的 eSIM 开卡攻略,请国行 iPhone Air 用户收好
国行 iPhone Air 上市时间定了!eSIM 套餐不变,无合约限制
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号