题目：Towards Interpretable and Effcient Attention:Compressing All by Contracting a Few

论文地址：https://arxiv.org/pdf/2509.16875

创新点

本文通过最大化编码率差（MCR²）的变体，将输入token压缩至由少量代表性token（representatives）张成的子空间中，既降低了计算复杂度（从二次降至线性），又通过子空间投影保留了数据的结构化表示，从而同时满足可解释性与效率需求。这一创新填补了现有研究中“解释性-效率”联合优化的空白。
基于统一优化目标，本文通过梯度下降的展开过程推导出CBSA机制，其核心思想是通过少量代表性token的“收缩-广播”操作实现注意力计算。

方法

本文主要提出了一种名为Contract-and-Broadcast Self-Attention (CBSA)的注意力机制，通过统一优化目标同时解决可解释性与效率问题，针对传统自注意力机制存在的二次计算复杂度（O(N²)）和缺乏内在可解释性的问题，本文基于最大编码率差（MCR²）原则提出新的优化目标：通过压缩输入token至低维子空间以降低计算开销，同时利用子空间投影保留数据的结构化表示以增强可解释性。

基于收缩-广播子空间投影的高效可解释自注意力机制

本图展示了Contract-and-Broadcast Self-Attention (CBSA)机制的核心架构与操作流程，其设计目标是通过压缩输入token至低维子空间并广播压缩后的信息，实现计算效率与可解释性的同步提升。本图呈现了CBSA的完整计算流程，其核心思想是通过子空间投影、代表性token提取、收缩操作与广播操作四步，将传统自注意力的二次复杂度（O(N²)）降为线性复杂度（O(N)）。图中从左至右依次展示了输入token的投影、代表性token的初始化与提取、收缩操作（基于代表性token的自注意力计算）以及广播操作（将收缩后的信息传播回所有token），最终输出更新后的token表示。

基于代表性token的CBSA注意力模式可视化与跨层信息传播机制

本图通过多组可视化实验与结构对比，系统展示了Contract-and-Broadcast Self-Attention (CBSA)机制中代表性token的核心作用及其跨层信息传播特性。图中分为上下两部分：上半部分通过热力图与注意力权重分布，直观呈现代表性token如何捕捉输入序列的关键信息并广播至全量token；下半部分通过跨层注意力传播路径分析，揭示CBSA如何通过分层收缩-广播操作实现从局部到全局的语义聚合。

CBSA机制在多任务场景下的性能对比与代表性token动态演化分析

本图通过多任务实验对比与代表性token的动态可视化，系统验证了Contract-and-Broadcast Self-Attention (CBSA)机制在计算效率、模型精度及可解释性上的综合优势。图中分为左右两部分：左侧为CBSA与基准模型（如标准Transformer、线性注意力模型）在分类、检测、分割三类任务上的性能对比；右侧通过动态注意力热力图，展示了代表性token在训练过程中如何逐步捕捉任务相关特征并优化信息传播路径。

实验

本表通过系统对比不同模型规模（Tiny/Small/Base）的CBSA变体与基准模型（标准Transformer、线性注意力模型）在分类、检测、分割任务中的精度、计算复杂度及参数量，全面验证了CBSA机制在性能与效率平衡上的优越性。表中数据覆盖ImageNet分类（Top-1/Top-5精度）、COCO检测（APbox/APmask）和ADE20K分割（mIoU）三项核心任务，同时标注各模型的FLOPs（G）和参数量（M），形成多维度的量化评估框架。本表通过多任务、多规模的量化对比，全面论证了CBSA机制在性能与效率平衡上的突破性。其代表性token的收缩-广播操作不仅降低了计算复杂度，还通过分层信息传播提升了模型对复杂任务的适应能力。实验数据表明，CBSA在保持与标准Transformer相当精度的同时，将计算量减少50%-70%，参数量降低20%-40%，为高效、可解释的Transformer架构设计提供了关键实证。这一评估框架也为后续研究提供了标准化的性能-效率对比基准。

-- END --

最后对注意力机制创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入注意力机制交流群！