万字长文!近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进

智猩猩 2026-06-02 20:29
万字长文!近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进图1

智猩猩主办的2026中国AI智能体大会7月2-3日杭州举行,大会设有开幕式,企业级AI智能体、AI智能体产品创新2场论坛,以及Coding Agent、自进化智能体、深度研究智能体、Computer-Use Agent、多智能体协同、Agent Skills、Agent Harness7场技术研讨会。天津大学郝建业教授,复旦肖仰华教授,阿里巴巴通义实验室算法专家李晨亮,腾讯Frontier团队专家研究员王琰,美团通用Agent团队负责人顾奇将出席演讲。


作者:天晴


地址:https://zhuanlan.zhihu.com/p/2020284380107552009


经授权发布,如需转载请联系原作者


2025 到 2026 年,DeepSeek、Kimi、Qwen、Google、小米发布的模型,里面或多或少已经用了更新的架构。有的改残差连接,有的加记忆模块,有的换 attention 机制。本文汇总整理和思考一下这些方法,包括 DeepSeek 的 Engram 和 mHC和DSA ,Kimi 的 Attention Residuals,Qwen3-Next 的 Gated DeltaNet hybrid,Gemma 2 / Mistral / MiMo 的 SWA/GA 交替,以及训练侧的 Muon 优化器。

其实这些架构可能打破了Transformer的对称性,需要系统基建来适配,以及有可能反而会降低速度,这个我还比较存疑。

01

Engram 


DeepSeek 2026 年 1 月的工作。


起点是一个观察:语言建模其实包含两种很不一样的子任务,组合推理和知识检索。识别 "Diana, Princess of Wales" 这个实体,模型要消耗好几层 Transformer 逐步拼出来,先识别 Wales 是英国一个地区,再识别 Princess of Wales 是头衔,最后才拼成完整实体。但这件事理论上查一次表就行了。

万字长文!近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进图2
万字长文!近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进图3
万字长文!近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进图4

Engram 的做法本质上是一个升级版的 Embedding Layer。标准 input embedding 是一个 token ID 查一个表取一个向量,Engram 也是查表取向量,但有几个不同:


查的是 bigram 和 trigram 的组合,不是单个 token。"of" 和 "Wales" 各自有向量,但 "of Wales" 作为一个搭配的语义信息,标准 embedding 捕捉不到,Engram 可以。


不在 Layer 0 注入,放在 Layer 2 和 Layer 15。这个很关键。论文提到了 OverEncoding 那个工作,就是把 N-gram embedding 加在 Layer 0 做平均,结果在 MoE 主干上基本没用。原因是 Engram 有一个上下文门控,需要前面 attention 层产生的 hidden state 来判断检索结果靠不靠谱。Layer 0 没有上下文,门控没法工作。


查完要过门控。哈希查表必然有碰撞,"Apple pie" 和 "Apple Inc." 里的 apple 可能映射到同一个 slot。门控用当前 hidden state 跟检索到的 key 算相似度,不相关就压到 0。


一个容易误解的地方是 Engram 没有 N-gram 词典。它建了一个固定大小的表(约 226 万个 slot),用哈希函数把任意 N-gram 映射进去。碰撞靠多头哈希缓解,每个 N-gram 阶用 8 个独立的哈希头映射到不同的表,取出来拼接。再加上门控兜底。


从系统角度看,查找是 O(1) 的,完全不依赖 hidden state,只要知道 token 序列就能预算索引。这跟 MoE 不同,MoE 的路由要等 runtime hidden state 算出来。Engram 的确定性让推理时可以异步预取:GPU 算前面的层,同时从主机 DRAM 通过 PCIe 把 embedding 拉过来。放在 Layer 2 也有这个考虑,需要前面两层的计算时间来掩盖传输延迟。100B 参数的表全放 DRAM,吞吐量损失不到 3%。


论文扫了 MoE 和 Engram 之间的参数分配比,发现 U 形曲线,大约 75%-80% 给 MoE、20%-25% 给 Engram 最优。


最反直觉的结果是 Engram 在推理任务上提升比知识任务更大,BBH +5.0 大于 MMLU +3.4。机理分析发现 Engram 把早期层从静态模式重建中解放出来,第 5 层的表征对应 baseline 第 12 层。不是给模型更多知识,是给模型更多思考空间。


Per-Layer Embeddings(PLE)


Google,2025 年 6 月 Gemma 3n 首次引入,2026 年 4 月 Gemma 4 沿用。

标准 Transformer 里,每个 token 在输入层查一次 embedding 表,得到一个  维向量,然后这个向量一路传过所有层,残差流在上面不断累加。问题是这要求 embedding 必须”前置装载”(frontload)所有层可能需要的信息,浅层需要的语法特征、深层需要的语义特征,全靠这一个向量带进去。


PLE 的做法是:不再只给一次 embedding,而是每层都给一个专属的小 embedding。


PLE 为每个 token 在每一层产生一个低维向量(Gemma 4 中   ),由两个信号组合而成:


Token-identity 分量。 一张独立于主 embedding 表的 PLE 查找表。表的形状是  ,   是词表大小,  是层数。Gemma 4 E2B 有 35 层、  所以每个 token ID 查出来的是一个  维的向量,reshape 成  后每层取自己的那一片。查表后乘  做缩放。


Context-aware 分量。 把主 embedding(已经过标准 embedding 层的输出)通过一个线性投影   映射到   的形状,再乘   (  是主 hidden size)做缩放,最后过一次 RMSNorm。这个分量让 PLE 可以感知当前 token 在序列中的上下文信息,而不只是依赖 token ID。


两个分量相加再乘   归一化:



关键是这个计算只在推理开始时做一次,所有层的 PLE 向量一次性算好缓存。后续各层按需取用自己那一层的   ,不需要重复计算。


注入方式:门控残差


每层拿到自己的 PLE 向量后,不是无条件加到 hidden state 上,而是过一个门控:



从当前 hidden state   算出门控信号,  是逐元素乘,  把  维投影回主 hidden size。门控让模型学会:这一层需不需要额外的 token 信息?需要哪些维度?不需要的直接压到 0。


内存模型:参数卸载


PLE 的设计动机是端侧部署。Gemma 4 E2B 总参数量约 50 亿,但核心 Transformer 权重只有约 20 亿,剩下的大部分是 PLE 的 embedding 表。


传统做法需要把整个 embedding 表放在 GPU VRAM 里。以 Gemma 4 E2B 为例,词表 262144、PLE 维度 8960、bfloat16 精度,这张表就是   GB    ,对手机来说不可接受。


PLE 的卸载策略:

  1. PLE 表存在 CPU 内存或闪存上,不占 GPU VRAM
  2. 推理开始时,根据输入序列的 token ID,只拉取当前序列用到的那些行到 GPU
  3. 一次性算好所有层的 PLE 向量并缓存
  4. 推理过程中逐层消费,用完即丢

这就是为什么 Gemma 4 E2B 叫”E2B”,E 代表 Effective,总参数 50 亿但有效显存占用只有 20 亿。PLE 的表虽然大,但只用于   的查找,不参与矩阵乘法,不产生 FLOPS 瓶颈。


跟 Engram 的异同


PLE 和 Engram 解决的是类似的问题:标准 embedding 层信息容量不够但路径很不同。


Engram 是 N-gram 哈希查表 + 上下文门控,放在 Layer 2 和 15,只查两次。PLE 是逐层都给 embedding,每层一个。Engram 的设计更重,226 万个 slot、多头哈希、100B 参数放 DRAM,但它捕捉的是 N-gram 组合语义(”of Wales” vs “of” + “Wales”),PLE 只看单 token ID。


Engram 论文的结论是它把早期层从模式重建中解放出来,PLE 做的事情类似但粒度更细,每层都有机会接收新的 token 信号,不需要把所有信息压在入口。


两者在动机上也有区别。Engram 的核心诉求是效果(把知识检索从推理中分离),PLE 的核心诉求是效率(把大参数量卸载到慢存储上,让小模型在端侧跑起来)。


跟 AttnRes的关系


AttnRes 也试图解决”深层无法有效获取浅层信息”的问题,但它通过层间 attention 从前序层的 hidden state 中检索。PLE 更直接:不从 hidden state 检索,直接给每层一份原始 token embedding 的”小抄”。


AttnRes 是动态的(内容依赖的层间权重),PLE 是半静态的(token-identity 部分在推理中固定,context-aware 部分只算一次)。AttnRes 的计算发生在运行时、在层间传播路径上,PLE 的主要计算发生在预处理阶段、离线完成。


局限


PLE 目前只用于 Gemma 4 的小模型(E2B、E4B),31B Dense 和 26B MoE 不用。这说明 PLE 的收益在大模型上可能不明显,大模型本身有足够的层数和宽度来逐层精炼表征,不太需要额外的 per-layer 信号。PLE 更像是小模型”以大换小”的手段:用一张大但便宜的查找表,补偿窄主干带来的表征瓶颈。


另一个限制是多模态输入。图像和音频 token 没有 token ID(它们是 soft token),PLE 只能给它们 pad token 的 embedding,等于对视觉和音频信号不起作用。


02

mHC 


DeepSeek 2025 年 12 月的工作。


万字长文!近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进图5


标准残差连接是单条流,所有信息挤在一根 d 维管道里。Hyper-Connections(HC)的想法是展宽成 n 条并行流(n=4),用可学习矩阵控制流间混合。单层更新公式变成:



这里   是展宽后的 n 流 hidden state,  控制流之间怎么混合,  和  负责从多流读入和写回单层计算。


问题出在多层叠加。把这个公式递推展开到第 L 层:


  


标准残差展开后对应的是恒等映射   ,直接传到深层,不放大不衰减。HC 展开后对应的是那个连乘   。矩阵不受约束时,每个   的谱范数只要略大于 1,连乘几十层就会指数级放大。实测在 27B 模型上,这个放大因子峰值到了 3000 倍,训练直接崩了。跟 RNN 梯度爆炸一个道理,只不过发生在层间不是时间步之间。


mHC 把   约束到双随机矩阵空间(Birkhoff 多面体),用 Sinkhorn-Knopp 算法迭代地让矩阵行和列都归一到 1。双随机矩阵有三个性质正好解决这个问题:谱范数不超过 1,所以单层不放大信号;乘法封闭,两个双随机矩阵相乘还是双随机的,所以   连乘后仍然稳定;但又不退化回恒等矩阵,流之间还能交换信息。信号放大因子从 3000 倍降到 1.6 倍。


消融实验有个值得注意的结论:三个映射矩阵里,  贡献了绝大部分收益, 和  只是维度适配。说明多流架构的价值不在于展宽本身,在于让不同流携带不同粒度的信息并交换。


额外训练开销 6.7%(n=4)。


03

AttnRes 


Kimi 2026 年 3 月的工作。


万字长文!近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进图6


论文抓了一个类比。RNN 把历史信息压缩到一个 hidden state,远距离信息丢失。Transformer 用 attention 解决了这个问题,让每个位置直接看到所有历史。这是序列维度的改进。


残差连接在深度维度上做的事跟 RNN 一模一样。所有前序层的输出被无差别累加成一个 hidden state,没有机制让某层选择性回看更早的层。AttnRes 就是对深度做同样的事:用 softmax attention 替代固定权重累加。


    


每层 l 配一个可学习的向量   ,论文叫 pseudo-query,因为它不像标准 attention 里的 query 从输入算出来,而是一个训练时学到的固定向量。前序层的输出同时做 key 和 value。  不依赖当前层的前向计算,这意味着一个 block 内所有层的跨 block attention 可以并行算,不需要等序列前向传播完成。


论文有个统一分析框架,证明标准残差和 Highway Network 都是深度维度上的线性 attention(固定权重求和),AttnRes 是深度维度上的 softmax attention(学习的、内容依赖的权重)。序列维度上这个从线性到 softmax 的转变催生了 Transformer,深度维度上就是 AttnRes。


Full AttnRes 要存所有 L 层输出,O(Ld) 的内存和通信开销在大规模流水线并行下不可接受。Block AttnRes 把层分成约 8 个 block,block 内用标准残差累加(和以前一样),block 间才做 attention 回看。N≈8 就恢复绝大部分收益,等效 1.25 倍计算预算的 baseline,实际额外开销不到 4%。


另一个发现是 AttnRes 缓解了 PreNorm 稀释。PreNorm 是目前主流的 Transformer 层归一化方式(在 attention/FFN 之前做 LayerNorm),但它有个已知问题:随着深度增加,hidden state 的幅值不断增长,每一层新增的信息在整体中的占比越来越小,相当于被”稀释”了。加了 AttnRes 后,各层 output magnitude 更均匀,深层不需要产生越来越大的输出来争夺影响力。


04

Gated DeltaNet

+Gated Attention  


Qwen3-Next,2025 年 8 月。


万字长文!近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进图7


不改残差,改 attention 本身。核心观察是不是每层都需要 full softmax attention,标准 attention 对每个 token 计算与所有其他 token 的相似度(O(n²)),但很多层实际只需要处理局部依赖,全局计算对它们来说是多余的。


Qwen3-Next 的方案是 3:1 交替,每 3 层用 Gated DeltaNet(一种线性 attention),第 4 层用 Gated Attention(带门控的 full softmax attention)。这种不同层用不同 attention 的模式叫 hybrid attention,后面 SWA/GA 交替那节也是 hybrid attention 的一种,只是混合的组件不同。


先说线性 attention 是什么。标准 softmax attention 算 softmax(QK^T)V,瓶颈在 QK^T 是 n×n 的矩阵。线性 attention 的思路是去掉 softmax,让计算可以换一种顺序:先算 K^T V(d×d 的矩阵,跟序列长度无关),再乘 Q。复杂度从 O(n²d) 变成 O(nd²),长序列下差别很大。在自回归场景下,这可以写成递推形式:维护一个 d×d 的状态矩阵 S,每来一个新 token 就把它的 kv 外积加到 S 上,然后用当前 query 去读 S。变成了一个 RNN,每步 O(d²),不需要存整个序列的 KV cache。


但朴素线性 attention 效果不好。softmax 除了归一化,还起到了稀疏化的作用(大值被放大、小值被压制),去掉之后 S 容易被不相关信息污染。Gated DeltaNet 在这个基础上做了两个改进。


第一个是门控衰减。朴素版本 S 只进不出,信息越积越满。加门控后   ,β < 1 让旧信息逐步衰减,腾出空间。这是 Mamba 式门控。


第二个是 delta rule。朴素版本直接把 kv^T 加到 S 上,不管 S 里是否已有这个信息。Delta rule 先用当前 k 查 S 看预测值是什么(  ), 然后只写入预测误差:  。已经记住的模式不重复写入,减少干扰。


Gated Attention 是在标准 multi-head attention 的输出后加了一个 sigmoid 门控。算完 softmax(QK^T)V 之后,另外从输入算一个门控信号 g = sigmoid(Wx),然后把 attention 输出逐元素乘以 g。这个门的作用是压制 attention sink 现象,attention sink 是指模型倾向于把大量 attention weight 集中到序列开头的几个 token 上,不管它们的内容是否有用,这种现象在长序列上特别明显。门控可以在输出端把这些无意义的高 attention 值压下去。


Kimi Linear 在这基础上做了两处改进。一是 Kimi Delta Attention,把 Gated DeltaNet 里控制衰减速率的标量门控升级为通道级门控:原来整个 attention head 共享一个 β 值,现在每个特征维度有自己独立的 β,控制粒度更细。二是把 Gated Attention 层替换为 MLA,进一步压缩 KV cache。

到 Qwen3.5(2026.02),Gated DeltaNet hybrid 已经成为 Qwen 系列的标准配置。


05

滑动窗口注意力

与全局注意力交替


跟 Gated DeltaNet hybrid 思路一脉相承:不是每层都要看全局。但实现方式不同。


先解释两个概念。全局注意力(Global Attention)就是标准的 softmax attention,每个 token 看到序列里所有其他 token,计算量 O(n²)。滑动窗口注意力(Sliding Window Attention, SWA)是限制版的 softmax attention,每个 token 只看自己前后一个固定大小窗口内的 token,窗口外的完全看不到。计算量从 O(n²) 降到 O(nw),w 是窗口大小。对应地,SWA 层的 KV cache 只需要存窗口大小的 key/value,不需要存整个序列的。


两种 attention 交替使用的思路很直观:SWA 层负责局部上下文建模(比如句法结构、短语搭配),全局注意力层负责远距离依赖(比如跨段落的指代消解、长距离推理链)。大部分层用便宜的 SWA 就够,少数几层用全局注意力来融合全局信息。


Gemma 2(Google,2024)和 Mistral 是较早用这个方案的,1:1 交替(一层 SWA 一层全局),窗口 4096。MiMo-V2-Flash(小米,2026.01)推到了极端:5:1 交替(5 层 SWA 才 1 层全局),窗口只有 128 token。


128 是个很激进的数字,大多数 SWA 设计用 4096。MiMo 让它 work 靠两个设计。


第一个是 learnable attention sink bias。attention sink 这个现象前面 Gated Attention 那段提到过:模型倾向于把 attention weight 集中到序列开头几个 token。在全局注意力下这只是效率上的小浪费,但在 128 的小窗口下就成了大问题,因为开头的 token 根本不在窗口里,模型想 attend 到它们也做不到。MiMo 的做法是给 SWA 层的 attention score 加一组可学习的位置偏置,让模型可以对窗口内的特定位置(比如窗口的开头和结尾)赋予额外的权重,部分补偿了无法看到全局 sink token 的损失。消融实验证实没有这个 bias 的 128 窗口性能明显掉。


第二个是第一层强制用全局注意力加稠密 FFN。稠密 FFN 是相对于 MoE FFN 而言的,MoE 的 FFN 每个 token 只激活一小部分专家,稠密 FFN 则是每个 token 都走完整的前馈网络,参数利用率更高。MiMo 的其他层都用 MoE,但第一层特意用稠密 FFN,理由是第一层要把 token embedding 变成有意义的初始表征,这个阶段信息还很稀疏,让所有参数都参与进来比稀疏激活更稳定。这跟 Engram 放 Layer 2 不放 Layer 0 的逻辑类似:第一层需要特殊对待。


SWA 和 DeltaNet 虽然都是”省计算”的 attention 替代方案,但机制上有本质区别。SWA 是看不远但看得清:窗口内还是精确的 softmax attention,什么信息都不丢,但窗口外完全看不到,是硬截断。DeltaNet 是看得远但有损压缩:通过状态矩阵,即使单独一个 DeltaNet 层也能(有损地)访问整个历史,但压缩过程不可避免地丢失细节。所以 MiMo 需要 sink bias 来补偿窗口外的信息丢失,DeltaNet 不需要这个 trick,因为它本身就有跨窗口的信息传递能力。


06

MLA(MMulti-Head Latent Attention)


DeepSeek V2(2024 年 6 月)提出,V3、R1 沿用,现在 Kimi K2、Kimi K2.5、GLM-5、Ling 2.5、Mistral Large 3 等也在用。


问题来自 KV cache。标准多头注意力(MHA)推理时要把每个 token 的 key 和 value 都缓存下来,每个 token 要存 2 × 头数 × 每头维度 这么多数据。DeepSeek V3 有 128 个头、每头 128 维,一个 token 的 KV cache 就是 32768 个元素,长序列下 GPU 显存很快被吃光。之前的方案是 GQA(Grouped-Query Attention)和 MQA(Multi-Query Attention),让多个 query 头共享同一组 key/value 头,减少缓存量。但共享意味着不同头看到的 key/value 是一样的,表达力打折扣,DeepSeek 的消融实验显示 GQA 性能不如 MHA。


MLA 换了个思路:不减少头的数量,而是压缩每个 token 要存的东西。引入一个下投影矩阵  ,把输入   压缩到一个低维的 latent 向量  ,KV cache 只存这个 latent。需要算 attention 的时候,再用上投影矩阵   和  把latent 解压回完整的 key 和 value:



DeepSeek V3 的 latent 维度设为 512,完整 KV 维度是 128×128 = 16384,压缩比 32 倍。KV cache 减少 93.3%,推理吞吐量提升 5.76 倍。


关键是这不是简单的质量换速度。GQA/MQA 通过共享头来省内存,丢掉了信息。MLA 通过低秩压缩来省内存,但每个头在计算时仍然解压出自己独立的 key 和 value,表达力不打折。DeepSeek 的实验显示 MLA 性能反而略好于标准 MHA。一种解释是低秩压缩起了正则化效果,迫使模型把信息组织到更紧凑的表征空间里。


工程上还有一个优化叫 weight absorption:推理时  可以被吸收进 query 的投影矩阵,  吸收进输出投影矩阵,运行时不需要真做解压的矩阵乘法,直接拿 latent 向量参与计算。实际计算量反而比标准 MHA 更少。


有个细节是 RoPE(旋转位置编码)跟低秩压缩不兼容,RoPE 需要直接作用在 key 上,但 MLA 的 key 是从 latent 解压出来的。DeepSeek 的解法是 decoupled RoPE:一部分 key/query 维度专门走 RoPE 不参与压缩,剩下的走正常低秩流程。额外的位置信息维度也要缓存,但相比省下的量可以忽略。


值得一提的是 GLM-5 在采用 MLA 时发现了一个问题:用 Muon 优化器训练时,MLA 的 576 维 latent KV cache 性能不如 GQA-8。他们搞了个叫 Muon Split 的改进,让不同 attention head 的投影权重以不同的 scale 更新,才把 MLA 性能拉到和 GQA 持平。这说明 MLA 不是随便拿来就能用的,优化器和注意力机制之间存在耦合,换了优化器可能需要重新调整。


DSA(DeepSeek Sparse Attention)


DeepSeek,2025 年 9 月发布 V3.2-Exp,2025 年 12 月正式发布 V3.2。


MLA 解决了 head 维度的冗余:128 个头的 KV 压缩到一个 512 维 latent,缓存省 93%。但序列维度的问题没动,每个 query 还是要跟序列里所有 token 算注意力,  的复杂度原封不动。128K 上下文下,这是推理成本的主要瓶颈。


DSA 在 MLA 的基础上做了序列维度的稀疏化。核心思路是:不让主注意力去扫全部 token,而是先用一个极轻量的模块快速判断哪些 token 值得看,只把这些 token 送进主注意力。


DSA 由两个组件构成:闪电索引器(Lightning Indexer)和细粒度 token 选择。


索引器计算查询 token   与前序 token   之间的索引分数:



 是索引器头数(远少于主注意力头数), 和  从   派生,  从  选 ReLU 是因为吞吐量:ReLU 天然过滤负相关 token(输出为 0),计算量也比 softmax 低得多。索引器头数少、维度低、用 FP8 精度,整体计算量是主注意力的一个小零头。


有了索引分数,对每个 query 取 Top-2048,主注意力只在这 2048 个 token 上计算:



每层独立选择。不同层的隐藏状态不同、索引器参数不同,选出的 token 集合也不同。这跟直觉一致:浅层关注局部语法,深层关注语义和长程依赖,没理由用同一批 token。


在 MLA 下的实例化:


DSA 基于 MLA 的 MQA 模式实例化。MLA 推理时每个 token 只缓存一个 latent 向量,所有 query 头共享同一个 latent 做键值。DSA 在此基础上做 token 选择,等于在 MLA 已经压缩过的 KV cache 上再做一次筛选。两者的稀疏化维度正交:MLA 压缩 head 维度(从 128 头到 1 个 latent),DSA 压缩序列维度(从  个token 到   个)。叠加后,主注意力的实际计算量从   降到    ,两个数量级的缩减。


训练:两阶段继续预训练


DSA 不是从头训练的,而是在 V3.1-Terminus 检查点上通过继续训练引入。这很重要——如果从头预训练,代价跟重新训一个模型差不多;继续训练只需要不到 1 万亿 token。


阶段一:稠密热身。 冻结全部主模型参数,只训索引器。主模型正常跑全量注意力,把注意力分数在所有头上求和、L1 归一化后得到目标分布   ,索引器输出过 Softmax 后用 KL 散度去拟合:



本质是蒸馏:主注意力是 teacher,索引器是 student。学习率   ,1000 步,16 条 128K 序列/步,总共 21 亿 token。非常轻量。


这个阶段必须用全量注意力,不能上来就让索引器选 Top-k。原因是经典的冷启动问题:索引器随机初始化时选出的 token 基本是垃圾,在垃圾 token 上算出的注意力分布也是垃圾,用垃圾去监督索引器只会恶性循环。全量注意力提供了一个与索引器状态无关的稳定监督信号,打破了这个循环。


阶段二:稀疏训练。 解冻主模型,启用 Top-k 选择,索引器和主模型同时训练。此时 KL 散度损失只在被选中的 token 集合   上计算:



一个关键设计:索引器输入从计算图中 detach。索引器只通过   获得梯度,主模型只通过语言建模损失优化,两条优化路径完全解耦。这回避了两个问题:一是 Top-k 不可微,梯度无法流过离散选择操作;二是如果耦合训练,索引器可能为降低自己的损失去扭曲主模型的隐藏状态表示,而非学习真正有用的注意力模式。


学习率   ,15000 步,480 条 128K 序列/步,总共 9437 亿 token。


两阶段本质上是交替优化:先固定主模型解一个简单的监督学习问题让索引器收敛,再联合微调。跟 EM 算法的思路一致——两个强耦合模块同时从零开始训不如先固定一个。


复杂度分析:


主注意力从  降到  ,  。但索引器本身仍是   ,因为每个 query 要对所有前序 token 算索引分数。不过索引器的常数因子极小(头少、维度低、FP8),实测端到端推理成本在长序列下降低 50%-75%。短序列下 DSA 会回退到掩码 MHA 模式,避免索引器的固定开销反而拖累效率。


与 SWA 和 Gated DeltaNet 的比较:


DSA 和前面提到的 SWA/GA 交替、Gated DeltaNet hybrid 都在解决同一个问题:不是每个 query 都需要看所有 token。但路径完全不同。


SWA 是硬截断:窗口内精确计算,窗口外完全看不到。信息没有损失但视野受限,需要穿插全局注意力层来补偿。Gated DeltaNet 是有损压缩:通过状态矩阵   保留全局历史的压缩摘要,看得远但必然丢细节。


DSA 是第三条路:动态、内容感知的稀疏选择。每个 query 根据实际内容从全序列中挑最相关的 token,既不限制视野(可以选到很远的 token),又不压缩信息(被选中的 token 走完整的 softmax attention,精度无损)。代价是索引器的   开销,虽然常数小,但理论复杂度没降。SWA 和 DeltaNet 在理论复杂度上更优(  和  ),DSA 赢在实际效果和工程实用性上。


另一个区别是 DSA 是逐层独立选择,不是 hybrid 架构。SWA/GA 交替和 DeltaNet hybrid 都是不同层用不同机制(有的层全局、有的层局部),DSA 则是每层都用同一套索引器+选择机制,但每层选出的 token 不同。两种思路不冲突,原则上可以叠加:比如部分层用 DSA(需要精确长程依赖的层),部分层用 DeltaNet(只需要粗粒度历史的层)。


跟 MLA 的关系:


如果把 MLA 和 DSA 放在一起看,DeepSeek 在注意力上做了两层正交的压缩:


再加上 MoE 在 FFN 层做的专家维度稀疏化(每个 token 只激活 8 个专家),DeepSeek V3.2 实际上形成了三层稀疏体系:expert 选择(MoE)、token 选择(DSA)、head 压缩(MLA)。三者作用的维度不同,可以独立调节。


07

Muon 优化器 


上面说的都是架构改进。训练侧也有值得一提的变化,就是 Muon 优化器。DeepSeek 的 Engram 论文和 Kimi K2 都用了 Muon。


万字长文!近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进图8


Adam 系列优化器对每个参数独立跟踪一阶动量(梯度的移动平均)和二阶动量(梯度平方的移动平均),一个参数一个统计量。Muon 的思路不同:既然 Transformer 里大部分参数是矩阵形式(attention 的 QKV 投影、FFN 的线性层),那为什么不把整个矩阵作为一个整体来优化?


具体做法是先算 SGD 动量(跟传统一样),然后对动量矩阵做一次近似正交化:找到离当前动量矩阵最近的半正交矩阵,用它来替代原始动量做参数更新。数学上等价于对动量做 SVD 分解  ,然后用   替代M,也就是把所有奇异值都设成 1。实际计算不用 SVD(太慢),而是用 Newton-Schulz 迭代(5 步就够),可以在 bfloat16 下稳定运行。


正交化在做什么?如果动量矩阵的奇异值分布很不均匀,有几个方向特别大,参数更新就会偏向这几个方向,其他方向被忽略。正交化把所有奇异值拉到 1,让更新在所有方向上均匀分配,防止模型只沿少数主导方向学习。


Muon 只处理 2D 参数(矩阵)。embedding、LM head、RMSNorm 这些标量和向量参数还是用 AdamW。Engram 论文里也是这样,主干参数用 Muon,embedding 表的参数单独用 Adam(学习率 ×5、无 weight decay)。


Moonlight 论文(Muon is Scalable for LLM Training)证明了 Muon 在大规模训练上可行。他们做了两个关键改进让 Muon 能扩展到大模型:加了 weight decay,以及调整了 per-parameter 的更新幅度让 Muon 可以直接复用 AdamW 调好的学习率。Scaling law 实验显示 Muon 的计算效率大约是 AdamW 的 2 倍,同样的 FLOPs 能训出更低的 loss。Kimi K2 在此基础上加了 MuonClip,限制 attention 层的 QK 内积最大值,解决 Muon 在大规模训练时 attention logits 爆炸的问题。


不只省计算,Muon 还省内存。Adam 需要存一阶动量和二阶动量两份额外状态,Muon 只需要一阶动量一份,比 Adam 少存 33%。


08

放在一起看  


这几个工作放一起能看到几个共同趋势。


分工在细化。Engram 把记忆和推理分开,Gated DeltaNet hybrid 把局部建模和全局校准分开,滑动窗口/全局注意力交替把局部上下文和长程依赖分开。都在说同一件事:不同类型的计算有不同的最优实现,不该用同一套机制全部处理。


中间层在变特殊。Engram 放 Layer 2 和 15 不放 Layer 0,MiMo 第一层强制用全局注意力 + 稠密 FFN,AttnRes 发现中间层表征最密集。Layer 0 的表征太”生”,末层太 task-specific,好东西在中间。


灵活性在增加但需要配套的稳定机制。标准残差完全静态靠恒等映射保稳定,mHC 用双随机矩阵约束,AttnRes 用 softmax 归一化,Engram 用 sigmoid 门控,Muon 用正交化防止更新偏向少数方向。越灵活越需要有东西兜底。


方案的组合。Engram 论文主干用了 mHC(M=4),Kimi Linear 组合了 Kimi Delta Attention + MLA,Engram 和 Kimi K2 的训练都用了 Muon。这些方向大多是正交的,原则上可以叠加。如果 DeepSeek V4 同时上 Engram + mHC + 某种 attention hybrid,就是条件计算、条件记忆、多流残差、混合注意力四重分工。


Transformer 的层正在从千篇一律变成各司其职。


  1. Engram: Conditional Memory via Scalable Lookup (DeepSeek, arXiv:2601.07372)
  2. mHC: Manifold-Constrained Hyper-Connections (DeepSeek, arXiv:2512.24880)
  3. Attention Residuals (Kimi Team, arXiv:2603.15031)
  4. Qwen3-Next (Qwen Team, 2025)
  5. Gemma 2 Technical Report (Google, 2024)
  6. MiMo-V2-Flash Technical Report (Xiaomi, arXiv:2601.02780)
  7. Muon: An optimizer for hidden layers (Jordan et al., 2024)
  8. Muon is Scalable for LLM Training (Liu et al., arXiv:2502.16982)
  9. DeepSeek Sparse Attention (DeepSeek-AI, arXiv:2512.02556, Dec 2025)
  10. Gemma 3n (Google, 2025.06) · Gemma 4 (Google DeepMind, 2026.04)

END


万字长文!近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进图9


点击下方名片 即刻关注我们

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
大模型
more
「千问」险成北京大厂的大模型名称;初代模型创始人深夜查岗,怒问为什么没人爱工作;算力黑洞致手机厂项目延期丨AI情报局
黄仁勋:AI时代学什么专业不重要/滴滴晚高峰崩了,官方致歉/直降99%,小米大模型API永久降价
宠物健康大模型公司连融两轮,软硬一体化布局,已服务超200家宠物医院|早起看早期
28nm工艺逆袭?Skymizer推低功耗AI加速卡,单卡跑通7000亿参数大模型
对话地平线前高管牛建伟:万亿参数大模型如何重塑具身智能
大模型“降智”真相,找到了
大模型「行口」不一?首个专测执行幻觉基准,覆盖真实行为越狱
大模型,该交卷了
姚顺雨交作业,腾讯混元Hy3 preview大模型亮相
内存暴降50倍且精度无损,MIT提出注意力匹配,能终结大模型显存危机吗?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号