万字长文！近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进

智猩猩主办的2026中国AI智能体大会7月2-3日杭州举行，大会设有开幕式，企业级AI智能体、AI智能体产品创新2场论坛，以及Coding Agent、自进化智能体、深度研究智能体、Computer-Use Agent、多智能体协同、Agent Skills、Agent Harness7场技术研讨会。天津大学郝建业教授，复旦肖仰华教授，阿里巴巴通义实验室算法专家李晨亮，腾讯Frontier团队专家研究员王琰，美团通用Agent团队负责人顾奇将出席演讲。

作者：天晴

地址：https://zhuanlan.zhihu.com/p/2020284380107552009

经授权发布，如需转载请联系原作者

2025 到 2026 年，DeepSeek、Kimi、Qwen、Google、小米发布的模型，里面或多或少已经用了更新的架构。有的改残差连接，有的加记忆模块，有的换 attention 机制。本文汇总整理和思考一下这些方法，包括 DeepSeek 的 Engram 和 mHC和DSA ，Kimi 的 Attention Residuals，Qwen3-Next 的 Gated DeltaNet hybrid，Gemma 2 / Mistral / MiMo 的 SWA/GA 交替，以及训练侧的 Muon 优化器。

其实这些架构可能打破了Transformer的对称性，需要系统基建来适配，以及有可能反而会降低速度，这个我还比较存疑。

Engram

DeepSeek 2026 年 1 月的工作。

起点是一个观察：语言建模其实包含两种很不一样的子任务，组合推理和知识检索。识别 "Diana, Princess of Wales" 这个实体，模型要消耗好几层 Transformer 逐步拼出来，先识别 Wales 是英国一个地区，再识别 Princess of Wales 是头衔，最后才拼成完整实体。但这件事理论上查一次表就行了。

万字长文！近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进图2

万字长文！近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进图3

万字长文！近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进图4

Engram 的做法本质上是一个升级版的 Embedding Layer。标准 input embedding 是一个 token ID 查一个表取一个向量，Engram 也是查表取向量，但有几个不同：

查的是 bigram 和 trigram 的组合，不是单个 token。"of" 和 "Wales" 各自有向量，但 "of Wales" 作为一个搭配的语义信息，标准 embedding 捕捉不到，Engram 可以。

不在 Layer 0 注入，放在 Layer 2 和 Layer 15。这个很关键。论文提到了 OverEncoding 那个工作，就是把 N-gram embedding 加在 Layer 0 做平均，结果在 MoE 主干上基本没用。原因是 Engram 有一个上下文门控，需要前面 attention 层产生的 hidden state 来判断检索结果靠不靠谱。Layer 0 没有上下文，门控没法工作。

查完要过门控。哈希查表必然有碰撞，"Apple pie" 和 "Apple Inc." 里的 apple 可能映射到同一个 slot。门控用当前 hidden state 跟检索到的 key 算相似度，不相关就压到 0。

一个容易误解的地方是 Engram 没有 N-gram 词典。它建了一个固定大小的表（约 226 万个 slot），用哈希函数把任意 N-gram 映射进去。碰撞靠多头哈希缓解，每个 N-gram 阶用 8 个独立的哈希头映射到不同的表，取出来拼接。再加上门控兜底。

从系统角度看，查找是 O(1) 的，完全不依赖 hidden state，只要知道 token 序列就能预算索引。这跟 MoE 不同，MoE 的路由要等 runtime hidden state 算出来。Engram 的确定性让推理时可以异步预取：GPU 算前面的层，同时从主机 DRAM 通过 PCIe 把 embedding 拉过来。放在 Layer 2 也有这个考虑，需要前面两层的计算时间来掩盖传输延迟。100B 参数的表全放 DRAM，吞吐量损失不到 3%。

论文扫了 MoE 和 Engram 之间的参数分配比，发现 U 形曲线，大约 75%-80% 给 MoE、20%-25% 给 Engram 最优。

最反直觉的结果是 Engram 在推理任务上提升比知识任务更大，BBH +5.0 大于 MMLU +3.4。机理分析发现 Engram 把早期层从静态模式重建中解放出来，第 5 层的表征对应 baseline 第 12 层。不是给模型更多知识，是给模型更多思考空间。

Per-Layer Embeddings（PLE）

Google，2025 年 6 月 Gemma 3n 首次引入，2026 年 4 月 Gemma 4 沿用。

标准 Transformer 里，每个 token 在输入层查一次 embedding 表，得到一个 $d$ 维向量，然后这个向量一路传过所有层，残差流在上面不断累加。问题是这要求 embedding 必须”前置装载”（frontload）所有层可能需要的信息，浅层需要的语法特征、深层需要的语义特征，全靠这一个向量带进去。

PLE 的做法是：不再只给一次 embedding，而是每层都给一个专属的小 embedding。

PLE 为每个 token 在每一层产生一个低维向量（Gemma 4 中 $d_{\mathrm{ple}} = 256$ ),由两个信号组合而成：

Token-identity 分量。 一张独立于主 embedding 表的 PLE 查找表。表的形状是 $[V, L \times d_{\mathrm{ple}}]$ , ${V}$ 是词表大小， ${L}$ 是层数。Gemma 4 E2B 有 35 层、 $d_{\mathrm{ple}} = 256$ 所以每个 token ID 查出来的是一个 $35 \times 256 = 8960$ 维的向量，reshape 成 $[L, d_{\mathrm{ple}}]$ 后每层取自己的那一片。查表后乘 $\sqrt{d_{\mathrm{ple}}}$ 做缩放。

Context-aware 分量。 把主 embedding（已经过标准 embedding 层的输出）通过一个线性投影 $W_{\mathrm{proj}}$ 映射到 $[L, d_{\mathrm{ple}}]$ 的形状，再乘 $\frac{1}{\sqrt{d_{\mathrm{ple}}}}$ （ ${d}$ 是主 hidden size）做缩放，最后过一次 RMSNorm。这个分量让 PLE 可以感知当前 token 在序列中的上下文信息，而不只是依赖 token ID。

两个分量相加再乘 $\frac{1}{\sqrt{2}}$ 归一化：

$e_l = \frac{1}{\sqrt{2}} \left( \sqrt{d_{\mathrm{ple}}} \cdot \mathrm{EmbedLookup}(\mathrm{id}) + \mathrm{RMSNorm}\left( \frac{W_{\mathrm{proj}} \cdot x}{\sqrt{d}} \right) \right)_l$

关键是这个计算只在推理开始时做一次，所有层的 PLE 向量一次性算好缓存。后续各层按需取用自己那一层的 $e_l$ ，不需要重复计算。

注入方式：门控残差

每层拿到自己的 PLE 向量后，不是无条件加到 hidden state 上，而是过一个门控：

$\begin{aligned} \mathbf{g}_l &= \mathrm{GELU}\left( W_l^{\mathrm{gate}} \cdot \mathbf{h}_l \right) \\ \mathbf{h}_l &\leftarrow \mathbf{h}_l + W_l^{\mathrm{up}} \cdot \left( \mathbf{g}_l \odot \mathbf{e}_l \right) \end{aligned}$

$W_l^{\mathrm{gate}}$ 从当前 hidden state $\mathbf{h}_l$ 算出门控信号， $\odot$ 是逐元素乘， $W_l^{\mathrm{up}}$ 把 $d_{\mathrm{ple}}$ 维投影回主 hidden size。门控让模型学会：这一层需不需要额外的 token 信息？需要哪些维度？不需要的直接压到 0。

内存模型：参数卸载

PLE 的设计动机是端侧部署。Gemma 4 E2B 总参数量约 50 亿，但核心 Transformer 权重只有约 20 亿，剩下的大部分是 PLE 的 embedding 表。

传统做法需要把整个 embedding 表放在 GPU VRAM 里。以 Gemma 4 E2B 为例，词表 262144、PLE 维度 8960、bfloat16 精度，这张表就是 $262144 \times 8960 \times 2 \approx 4.5 \times 10^9$ GB ，对手机来说不可接受。

PLE 的卸载策略：

PLE 表存在 CPU 内存或闪存上，不占 GPU VRAM
推理开始时，根据输入序列的 token ID，只拉取当前序列用到的那些行到 GPU
一次性算好所有层的 PLE 向量并缓存
推理过程中逐层消费，用完即丢

这就是为什么 Gemma 4 E2B 叫”E2B”，E 代表 Effective，总参数 50 亿但有效显存占用只有 20 亿。PLE 的表虽然大，但只用于 $O(1)$ 的查找，不参与矩阵乘法，不产生 FLOPS 瓶颈。

跟 Engram 的异同

PLE 和 Engram 解决的是类似的问题：标准 embedding 层信息容量不够。但路径很不同。

Engram 是 N-gram 哈希查表 + 上下文门控，放在 Layer 2 和 15，只查两次。PLE 是逐层都给 embedding，每层一个。Engram 的设计更重，226 万个 slot、多头哈希、100B 参数放 DRAM，但它捕捉的是 N-gram 组合语义（”of Wales” vs “of” + “Wales”），PLE 只看单 token ID。

Engram 论文的结论是它把早期层从模式重建中解放出来，PLE 做的事情类似但粒度更细，每层都有机会接收新的 token 信号，不需要把所有信息压在入口。

两者在动机上也有区别。Engram 的核心诉求是效果（把知识检索从推理中分离），PLE 的核心诉求是效率（把大参数量卸载到慢存储上，让小模型在端侧跑起来）。

跟 AttnRes的关系

AttnRes 也试图解决”深层无法有效获取浅层信息”的问题，但它通过层间 attention 从前序层的 hidden state 中检索。PLE 更直接：不从 hidden state 检索，直接给每层一份原始 token embedding 的”小抄”。

AttnRes 是动态的（内容依赖的层间权重），PLE 是半静态的（token-identity 部分在推理中固定，context-aware 部分只算一次）。AttnRes 的计算发生在运行时、在层间传播路径上，PLE 的主要计算发生在预处理阶段、离线完成。

局限

PLE 目前只用于 Gemma 4 的小模型（E2B、E4B），31B Dense 和 26B MoE 不用。这说明 PLE 的收益在大模型上可能不明显，大模型本身有足够的层数和宽度来逐层精炼表征，不太需要额外的 per-layer 信号。PLE 更像是小模型”以大换小”的手段：用一张大但便宜的查找表，补偿窄主干带来的表征瓶颈。

另一个限制是多模态输入。图像和音频 token 没有 token ID（它们是 soft token），PLE 只能给它们 pad token 的 embedding，等于对视觉和音频信号不起作用。

mHC

DeepSeek 2025 年 12 月的工作。

万字长文！近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进图5

标准残差连接是单条流，所有信息挤在一根 d 维管道里。Hyper-Connections（HC）的想法是展宽成 n 条并行流（n=4），用可学习矩阵控制流间混合。单层更新公式变成：

$x_{l+1} = H_l^{\mathrm{res}} x_l + (H_l^{\mathrm{post}})^\top F\left( H_l^{\mathrm{pre}} x_l, W_l \right)$

这里 $x_l \in \mathbb{R}^{n \times C}$ 是展宽后的 n 流 hidden state， $H_l^{\mathrm{res}} \in \mathbb{R}^{n \times n}$ 控制流之间怎么混合， $H_l^{\mathrm{pre}}$ 和 $H_l^{\mathrm{post}}$ 负责从多流读入和写回单层计算。

问题出在多层叠加。把这个公式递推展开到第 L 层：

$x_L = \left( \prod_{i=1}^{L-l} H_{L-i}^{\mathrm{res}} \right) x_l + \dots$

标准残差展开后对应的是恒等映射 ${x_1}$ ,直接传到深层，不放大不衰减。HC 展开后对应的是那个连乘 $\prod H^{\mathrm{res}}$ 。矩阵不受约束时，每个 $H^{\mathrm{res}}$ 的谱范数只要略大于 1，连乘几十层就会指数级放大。实测在 27B 模型上，这个放大因子峰值到了 3000 倍，训练直接崩了。跟 RNN 梯度爆炸一个道理，只不过发生在层间不是时间步之间。

mHC 把 $H_l^{\text{res}}$ 约束到双随机矩阵空间（Birkhoff 多面体），用 Sinkhorn-Knopp 算法迭代地让矩阵行和列都归一到 1。双随机矩阵有三个性质正好解决这个问题：谱范数不超过 1，所以单层不放大信号；乘法封闭，两个双随机矩阵相乘还是双随机的，所以 $\prod H^{\mathrm{res}}$ 连乘后仍然稳定；但又不退化回恒等矩阵，流之间还能交换信息。信号放大因子从 3000 倍降到 1.6 倍。

消融实验有个值得注意的结论：三个映射矩阵里， $H^{\mathrm{res}}$ 贡献了绝大部分收益， $H^{\mathrm{pre}}$ 和 $H^{\mathrm{post}}$ 只是维度适配。说明多流架构的价值不在于展宽本身，在于让不同流携带不同粒度的信息并交换。

额外训练开销 6.7%（n=4）。

AttnRes

Kimi 2026 年 3 月的工作。

万字长文！近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进图6

论文抓了一个类比。RNN 把历史信息压缩到一个 hidden state，远距离信息丢失。Transformer 用 attention 解决了这个问题，让每个位置直接看到所有历史。这是序列维度的改进。

残差连接在深度维度上做的事跟 RNN 一模一样。所有前序层的输出被无差别累加成一个 hidden state，没有机制让某层选择性回看更早的层。AttnRes 就是对深度做同样的事：用 softmax attention 替代固定权重累加。

$\mathbf{h}_l = \sum_{i=0}^{l-1} \alpha_{i \to l} \cdot \mathbf{v}_i,\quad \alpha_{i \to l} = \mathrm{softmax}\left( (w_l)^\top \cdot \mathrm{RMSNorm}(k_i) \right)$

每层 l 配一个可学习的向量 $w_l$ ,论文叫 pseudo-query，因为它不像标准 attention 里的 query 从输入算出来，而是一个训练时学到的固定向量。前序层的输出同时做 key 和 value。 $w_l$ 不依赖当前层的前向计算，这意味着一个 block 内所有层的跨 block attention 可以并行算，不需要等序列前向传播完成。

论文有个统一分析框架，证明标准残差和 Highway Network 都是深度维度上的线性 attention（固定权重求和），AttnRes 是深度维度上的 softmax attention（学习的、内容依赖的权重）。序列维度上这个从线性到 softmax 的转变催生了 Transformer，深度维度上就是 AttnRes。

Full AttnRes 要存所有 L 层输出，O(Ld) 的内存和通信开销在大规模流水线并行下不可接受。Block AttnRes 把层分成约 8 个 block，block 内用标准残差累加（和以前一样），block 间才做 attention 回看。N≈8 就恢复绝大部分收益，等效 1.25 倍计算预算的 baseline，实际额外开销不到 4%。

另一个发现是 AttnRes 缓解了 PreNorm 稀释。PreNorm 是目前主流的 Transformer 层归一化方式（在 attention/FFN 之前做 LayerNorm），但它有个已知问题：随着深度增加，hidden state 的幅值不断增长，每一层新增的信息在整体中的占比越来越小，相当于被”稀释”了。加了 AttnRes 后，各层 output magnitude 更均匀，深层不需要产生越来越大的输出来争夺影响力。

Gated DeltaNet

+Gated Attention

Qwen3-Next，2025 年 8 月。

万字长文！近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进图7

不改残差，改 attention 本身。核心观察是不是每层都需要 full softmax attention，标准 attention 对每个 token 计算与所有其他 token 的相似度（O(n²)），但很多层实际只需要处理局部依赖，全局计算对它们来说是多余的。

Qwen3-Next 的方案是 3:1 交替，每 3 层用 Gated DeltaNet（一种线性 attention），第 4 层用 Gated Attention（带门控的 full softmax attention）。这种不同层用不同 attention 的模式叫 hybrid attention，后面 SWA/GA 交替那节也是 hybrid attention 的一种，只是混合的组件不同。

先说线性 attention 是什么。标准 softmax attention 算 softmax(QK^T)V，瓶颈在 QK^T 是 n×n 的矩阵。线性 attention 的思路是去掉 softmax，让计算可以换一种顺序：先算 K^T V（d×d 的矩阵，跟序列长度无关），再乘 Q。复杂度从 O(n²d) 变成 O(nd²)，长序列下差别很大。在自回归场景下，这可以写成递推形式：维护一个 d×d 的状态矩阵 S，每来一个新 token 就把它的 kv 外积加到 S 上，然后用当前 query 去读 S。变成了一个 RNN，每步 O(d²)，不需要存整个序列的 KV cache。

但朴素线性 attention 效果不好。softmax 除了归一化，还起到了稀疏化的作用（大值被放大、小值被压制），去掉之后 S 容易被不相关信息污染。Gated DeltaNet 在这个基础上做了两个改进。

第一个是门控衰减。朴素版本 S 只进不出，信息越积越满。加门控后 $S_t = \beta_t \cdot S_{t-1} + k v^\top$ ，β < 1 让旧信息逐步衰减，腾出空间。这是 Mamba 式门控。

第二个是 delta rule。朴素版本直接把 kv^T 加到 S 上，不管 S 里是否已有这个信息。Delta rule 先用当前 k 查 S 看预测值是什么（ $\hat{v} = S k$ ），然后只写入预测误差： $S_t = \beta_t \cdot S_{t-1} + k_t \left( v_t - S_{t-1} k_t \right)^\top$ 。已经记住的模式不重复写入，减少干扰。

Gated Attention 是在标准 multi-head attention 的输出后加了一个 sigmoid 门控。算完 softmax(QK^T)V 之后，另外从输入算一个门控信号 g = sigmoid(Wx)，然后把 attention 输出逐元素乘以 g。这个门的作用是压制 attention sink 现象，attention sink 是指模型倾向于把大量 attention weight 集中到序列开头的几个 token 上，不管它们的内容是否有用，这种现象在长序列上特别明显。门控可以在输出端把这些无意义的高 attention 值压下去。

Kimi Linear 在这基础上做了两处改进。一是 Kimi Delta Attention，把 Gated DeltaNet 里控制衰减速率的标量门控升级为通道级门控：原来整个 attention head 共享一个 β 值，现在每个特征维度有自己独立的 β，控制粒度更细。二是把 Gated Attention 层替换为 MLA，进一步压缩 KV cache。

到 Qwen3.5（2026.02），Gated DeltaNet hybrid 已经成为 Qwen 系列的标准配置。

滑动窗口注意力

与全局注意力交替

跟 Gated DeltaNet hybrid 思路一脉相承：不是每层都要看全局。但实现方式不同。

先解释两个概念。全局注意力（Global Attention）就是标准的 softmax attention，每个 token 看到序列里所有其他 token，计算量 O(n²)。滑动窗口注意力（Sliding Window Attention, SWA）是限制版的 softmax attention，每个 token 只看自己前后一个固定大小窗口内的 token，窗口外的完全看不到。计算量从 O(n²) 降到 O(nw)，w 是窗口大小。对应地，SWA 层的 KV cache 只需要存窗口大小的 key/value，不需要存整个序列的。

两种 attention 交替使用的思路很直观：SWA 层负责局部上下文建模（比如句法结构、短语搭配），全局注意力层负责远距离依赖（比如跨段落的指代消解、长距离推理链）。大部分层用便宜的 SWA 就够，少数几层用全局注意力来融合全局信息。

Gemma 2（Google，2024）和 Mistral 是较早用这个方案的，1:1 交替（一层 SWA 一层全局），窗口 4096。MiMo-V2-Flash（小米，2026.01）推到了极端：5:1 交替（5 层 SWA 才 1 层全局），窗口只有 128 token。

128 是个很激进的数字，大多数 SWA 设计用 4096。MiMo 让它 work 靠两个设计。

第一个是 learnable attention sink bias。attention sink 这个现象前面 Gated Attention 那段提到过：模型倾向于把 attention weight 集中到序列开头几个 token。在全局注意力下这只是效率上的小浪费，但在 128 的小窗口下就成了大问题，因为开头的 token 根本不在窗口里，模型想 attend 到它们也做不到。MiMo 的做法是给 SWA 层的 attention score 加一组可学习的位置偏置，让模型可以对窗口内的特定位置（比如窗口的开头和结尾）赋予额外的权重，部分补偿了无法看到全局 sink token 的损失。消融实验证实没有这个 bias 的 128 窗口性能明显掉。

第二个是第一层强制用全局注意力加稠密 FFN。稠密 FFN 是相对于 MoE FFN 而言的，MoE 的 FFN 每个 token 只激活一小部分专家，稠密 FFN 则是每个 token 都走完整的前馈网络，参数利用率更高。MiMo 的其他层都用 MoE，但第一层特意用稠密 FFN，理由是第一层要把 token embedding 变成有意义的初始表征，这个阶段信息还很稀疏，让所有参数都参与进来比稀疏激活更稳定。这跟 Engram 放 Layer 2 不放 Layer 0 的逻辑类似：第一层需要特殊对待。

SWA 和 DeltaNet 虽然都是”省计算”的 attention 替代方案，但机制上有本质区别。SWA 是看不远但看得清：窗口内还是精确的 softmax attention，什么信息都不丢，但窗口外完全看不到，是硬截断。DeltaNet 是看得远但有损压缩：通过状态矩阵，即使单独一个 DeltaNet 层也能（有损地）访问整个历史，但压缩过程不可避免地丢失细节。所以 MiMo 需要 sink bias 来补偿窗口外的信息丢失，DeltaNet 不需要这个 trick，因为它本身就有跨窗口的信息传递能力。

MLA（MMulti-Head Latent Attention）

DeepSeek V2（2024 年 6 月）提出，V3、R1 沿用，现在 Kimi K2、Kimi K2.5、GLM-5、Ling 2.5、Mistral Large 3 等也在用。

问题来自 KV cache。标准多头注意力（MHA）推理时要把每个 token 的 key 和 value 都缓存下来，每个 token 要存 2 × 头数 × 每头维度这么多数据。DeepSeek V3 有 128 个头、每头 128 维，一个 token 的 KV cache 就是 32768 个元素，长序列下 GPU 显存很快被吃光。之前的方案是 GQA（Grouped-Query Attention）和 MQA（Multi-Query Attention），让多个 query 头共享同一组 key/value 头，减少缓存量。但共享意味着不同头看到的 key/value 是一样的，表达力打折扣，DeepSeek 的消融实验显示 GQA 性能不如 MHA。

MLA 换了个思路：不减少头的数量，而是压缩每个 token 要存的东西。引入一个下投影矩阵 $W^{DKV}$ ，把输入 $x_t$ 压缩到一个低维的 latent 向量 $c_t^{KV} = W^{DKV} x_t$ ，KV cache 只存这个 latent。需要算 attention 的时候，再用上投影矩阵 $W^{UK}$ 和 $W^{UV}$ 把latent 解压回完整的 key 和 value：

$c_t^{KV} = W^{DKV} x_t,\quad K = W^{UK} c_t^{KV},\quad V = W^{UV} c_t^{KV}$

DeepSeek V3 的 latent 维度设为 512，完整 KV 维度是 128×128 = 16384，压缩比 32 倍。KV cache 减少 93.3%，推理吞吐量提升 5.76 倍。

关键是这不是简单的质量换速度。GQA/MQA 通过共享头来省内存，丢掉了信息。MLA 通过低秩压缩来省内存，但每个头在计算时仍然解压出自己独立的 key 和 value，表达力不打折。DeepSeek 的实验显示 MLA 性能反而略好于标准 MHA。一种解释是低秩压缩起了正则化效果，迫使模型把信息组织到更紧凑的表征空间里。

工程上还有一个优化叫 weight absorption：推理时 $W^{UK}$ 可以被吸收进 query 的投影矩阵， $W^{UV}$ 吸收进输出投影矩阵，运行时不需要真做解压的矩阵乘法，直接拿 latent 向量参与计算。实际计算量反而比标准 MHA 更少。

有个细节是 RoPE（旋转位置编码）跟低秩压缩不兼容，RoPE 需要直接作用在 key 上，但 MLA 的 key 是从 latent 解压出来的。DeepSeek 的解法是 decoupled RoPE：一部分 key/query 维度专门走 RoPE 不参与压缩，剩下的走正常低秩流程。额外的位置信息维度也要缓存，但相比省下的量可以忽略。

值得一提的是 GLM-5 在采用 MLA 时发现了一个问题：用 Muon 优化器训练时，MLA 的 576 维 latent KV cache 性能不如 GQA-8。他们搞了个叫 Muon Split 的改进，让不同 attention head 的投影权重以不同的 scale 更新，才把 MLA 性能拉到和 GQA 持平。这说明 MLA 不是随便拿来就能用的，优化器和注意力机制之间存在耦合，换了优化器可能需要重新调整。

DSA（DeepSeek Sparse Attention）

DeepSeek，2025 年 9 月发布 V3.2-Exp，2025 年 12 月正式发布 V3.2。

MLA 解决了 head 维度的冗余：128 个头的 KV 压缩到一个 512 维 latent，缓存省 93%。但序列维度的问题没动，每个 query 还是要跟序列里所有 token 算注意力， $O(n^2)$ 的复杂度原封不动。128K 上下文下，这是推理成本的主要瓶颈。

DSA 在 MLA 的基础上做了序列维度的稀疏化。核心思路是：不让主注意力去扫全部 token，而是先用一个极轻量的模块快速判断哪些 token 值得看，只把这些 token 送进主注意力。

DSA 由两个组件构成：闪电索引器（Lightning Indexer）和细粒度 token 选择。

索引器计算查询 token ${h_t}$ 与前序 token ${h_s}$ 之间的索引分数：

$I_{t,s} = \sum_{j=1}^{H^I} w_{t,j}^I \cdot \text{ReLU}\left(\mathbf{q}_{t,j}^I \cdot \mathbf{k}_s^I\right)$

${H^I}$ 是索引器头数（远少于主注意力头数）， $\mathbf{q}_{t,j}^I \in \mathbb{R}^{d^I}$ 和 $w_{t,j}^I \in \mathbb{R}$ 从 ${h_t}$ 派生， $\mathbf{k}_s^I \in \mathbb{R}^{d^I}$ 从 ${h_s}$ 选 ReLU 是因为吞吐量：ReLU 天然过滤负相关 token（输出为 0），计算量也比 softmax 低得多。索引器头数少、维度低、用 FP8 精度，整体计算量是主注意力的一个小零头。

有了索引分数，对每个 query 取 Top-2048，主注意力只在这 2048 个 token 上计算：

$\mathbf{u}_t = \text{Attn}\left(\mathbf{h}_t, \left\{ \mathbf{c}_s \mid I_{t,s} \in \text{Top-}k(I_{t,:}) \right\}\right)$

每层独立选择。不同层的隐藏状态不同、索引器参数不同，选出的 token 集合也不同。这跟直觉一致：浅层关注局部语法，深层关注语义和长程依赖，没理由用同一批 token。

在 MLA 下的实例化：

DSA 基于 MLA 的 MQA 模式实例化。MLA 推理时每个 token 只缓存一个 latent 向量，所有 query 头共享同一个 latent 做键值。DSA 在此基础上做 token 选择，等于在 MLA 已经压缩过的 KV cache 上再做一次筛选。两者的稀疏化维度正交：MLA 压缩 head 维度（从 128 头到 1 个 latent），DSA 压缩序列维度（从 $L$ 个token 到 ${k=2048}$ 个）。叠加后，主注意力的实际计算量从 $O(L \times 128 \times d)$ 降到 $O(k \times 1 \times d')$ ，两个数量级的缩减。

训练：两阶段继续预训练

DSA 不是从头训练的，而是在 V3.1-Terminus 检查点上通过继续训练引入。这很重要——如果从头预训练，代价跟重新训一个模型差不多；继续训练只需要不到 1 万亿 token。

阶段一：稠密热身。 冻结全部主模型参数，只训索引器。主模型正常跑全量注意力，把注意力分数在所有头上求和、L1 归一化后得到目标分布 $p_{t,:} \in \mathbb{R}^t$ ，索引器输出过 Softmax 后用 KL 散度去拟合：

$\mathcal{L}^I = \sum_t D_{\text{KL}}\left(p_{t,:} \parallel \text{Softmax}(I_{t,:})\right)$

本质是蒸馏：主注意力是 teacher，索引器是 student。学习率 $10^{-3}$ ,1000 步，16 条 128K 序列/步，总共 21 亿 token。非常轻量。

这个阶段必须用全量注意力，不能上来就让索引器选 Top-k。原因是经典的冷启动问题：索引器随机初始化时选出的 token 基本是垃圾，在垃圾 token 上算出的注意力分布也是垃圾，用垃圾去监督索引器只会恶性循环。全量注意力提供了一个与索引器状态无关的稳定监督信号，打破了这个循环。

阶段二：稀疏训练。 解冻主模型，启用 Top-k 选择，索引器和主模型同时训练。此时 KL 散度损失只在被选中的 token 集合 $S_t = \left\{ s \mid I_{t,s} \in \text{Top-}k(I_{t,:}) \right\}$ 上计算：

$\mathcal{L}^I = \sum_t D_{\text{KL}}\left(p_{t,S_t} \parallel \text{Softmax}(I_{t,S_t})\right)$

一个关键设计：索引器输入从计算图中 detach。索引器只通过 $L^I$ 获得梯度，主模型只通过语言建模损失优化，两条优化路径完全解耦。这回避了两个问题：一是 Top-k 不可微，梯度无法流过离散选择操作；二是如果耦合训练，索引器可能为降低自己的损失去扭曲主模型的隐藏状态表示，而非学习真正有用的注意力模式。

学习率 $7.3 \times 10^{-6}$ ,15000 步，480 条 128K 序列/步，总共 9437 亿 token。

两阶段本质上是交替优化：先固定主模型解一个简单的监督学习问题让索引器收敛，再联合微调。跟 EM 算法的思路一致——两个强耦合模块同时从零开始训不如先固定一个。

复杂度分析：

主注意力从 $O(L^2)$ 降到 $O(Lk)$ ， $\ k=2048 \ll L$ 。但索引器本身仍是 $O(L^2)$ ,因为每个 query 要对所有前序 token 算索引分数。不过索引器的常数因子极小（头少、维度低、FP8），实测端到端推理成本在长序列下降低 50%-75%。短序列下 DSA 会回退到掩码 MHA 模式，避免索引器的固定开销反而拖累效率。

与 SWA 和 Gated DeltaNet 的比较：

DSA 和前面提到的 SWA/GA 交替、Gated DeltaNet hybrid 都在解决同一个问题：不是每个 query 都需要看所有 token。但路径完全不同。

SWA 是硬截断：窗口内精确计算，窗口外完全看不到。信息没有损失但视野受限，需要穿插全局注意力层来补偿。Gated DeltaNet 是有损压缩：通过状态矩阵 $S$ 保留全局历史的压缩摘要，看得远但必然丢细节。

DSA 是第三条路：动态、内容感知的稀疏选择。每个 query 根据实际内容从全序列中挑最相关的 token，既不限制视野（可以选到很远的 token），又不压缩信息（被选中的 token 走完整的 softmax attention，精度无损）。代价是索引器的 $O(L^2)$ 开销，虽然常数小，但理论复杂度没降。SWA 和 DeltaNet 在理论复杂度上更优（ $O(Lw)$ 和 $O(Ld^2)$ ），DSA 赢在实际效果和工程实用性上。

另一个区别是 DSA 是逐层独立选择，不是 hybrid 架构。SWA/GA 交替和 DeltaNet hybrid 都是不同层用不同机制（有的层全局、有的层局部），DSA 则是每层都用同一套索引器+选择机制，但每层选出的 token 不同。两种思路不冲突，原则上可以叠加：比如部分层用 DSA（需要精确长程依赖的层），部分层用 DeltaNet（只需要粗粒度历史的层）。

跟 MLA 的关系：

如果把 MLA 和 DSA 放在一起看，DeepSeek 在注意力上做了两层正交的压缩：

MLA：head 维度压缩。128 头的 KV 投影到 512 维 latent，缓存省 93%，但每个 query 还是要看全部 token。
DSA：序列维度压缩。每个 query 只看 Top-2048 个 token，但被选中的 token 走完整的 MLA 注意力，精度不打折。

再加上 MoE 在 FFN 层做的专家维度稀疏化（每个 token 只激活 8 个专家），DeepSeek V3.2 实际上形成了三层稀疏体系：expert 选择（MoE）、token 选择（DSA）、head 压缩（MLA）。三者作用的维度不同，可以独立调节。

Muon 优化器

上面说的都是架构改进。训练侧也有值得一提的变化，就是 Muon 优化器。DeepSeek 的 Engram 论文和 Kimi K2 都用了 Muon。

万字长文！近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进图8

Adam 系列优化器对每个参数独立跟踪一阶动量（梯度的移动平均）和二阶动量（梯度平方的移动平均），一个参数一个统计量。Muon 的思路不同：既然 Transformer 里大部分参数是矩阵形式（attention 的 QKV 投影、FFN 的线性层），那为什么不把整个矩阵作为一个整体来优化？

具体做法是先算 SGD 动量（跟传统一样），然后对动量矩阵做一次近似正交化：找到离当前动量矩阵最近的半正交矩阵，用它来替代原始动量做参数更新。数学上等价于对动量做 SVD 分解 $M = USV^\top$ ，然后用 $UV^\top$ 替代M，也就是把所有奇异值都设成 1。实际计算不用 SVD（太慢），而是用 Newton-Schulz 迭代（5 步就够），可以在 bfloat16 下稳定运行。

正交化在做什么？如果动量矩阵的奇异值分布很不均匀，有几个方向特别大，参数更新就会偏向这几个方向，其他方向被忽略。正交化把所有奇异值拉到 1，让更新在所有方向上均匀分配，防止模型只沿少数主导方向学习。

Muon 只处理 2D 参数（矩阵）。embedding、LM head、RMSNorm 这些标量和向量参数还是用 AdamW。Engram 论文里也是这样，主干参数用 Muon，embedding 表的参数单独用 Adam（学习率 ×5、无 weight decay）。

Moonlight 论文（Muon is Scalable for LLM Training）证明了 Muon 在大规模训练上可行。他们做了两个关键改进让 Muon 能扩展到大模型：加了 weight decay，以及调整了 per-parameter 的更新幅度让 Muon 可以直接复用 AdamW 调好的学习率。Scaling law 实验显示 Muon 的计算效率大约是 AdamW 的 2 倍，同样的 FLOPs 能训出更低的 loss。Kimi K2 在此基础上加了 MuonClip，限制 attention 层的 QK 内积最大值，解决 Muon 在大规模训练时 attention logits 爆炸的问题。

不只省计算，Muon 还省内存。Adam 需要存一阶动量和二阶动量两份额外状态，Muon 只需要一阶动量一份，比 Adam 少存 33%。

放在一起看

这几个工作放一起能看到几个共同趋势。

分工在细化。Engram 把记忆和推理分开，Gated DeltaNet hybrid 把局部建模和全局校准分开，滑动窗口/全局注意力交替把局部上下文和长程依赖分开。都在说同一件事：不同类型的计算有不同的最优实现，不该用同一套机制全部处理。

中间层在变特殊。Engram 放 Layer 2 和 15 不放 Layer 0，MiMo 第一层强制用全局注意力 + 稠密 FFN，AttnRes 发现中间层表征最密集。Layer 0 的表征太”生”，末层太 task-specific，好东西在中间。

灵活性在增加但需要配套的稳定机制。标准残差完全静态靠恒等映射保稳定，mHC 用双随机矩阵约束，AttnRes 用 softmax 归一化，Engram 用 sigmoid 门控，Muon 用正交化防止更新偏向少数方向。越灵活越需要有东西兜底。

方案的组合。Engram 论文主干用了 mHC（M=4），Kimi Linear 组合了 Kimi Delta Attention + MLA，Engram 和 Kimi K2 的训练都用了 Muon。这些方向大多是正交的，原则上可以叠加。如果 DeepSeek V4 同时上 Engram + mHC + 某种 attention hybrid，就是条件计算、条件记忆、多流残差、混合注意力四重分工。

Transformer 的层正在从千篇一律变成各司其职。

Engram: Conditional Memory via Scalable Lookup (DeepSeek, arXiv:2601.07372)
mHC: Manifold-Constrained Hyper-Connections (DeepSeek, arXiv:2512.24880)
Attention Residuals (Kimi Team, arXiv:2603.15031)
Qwen3-Next (Qwen Team, 2025)
Gemma 2 Technical Report (Google, 2024)
MiMo-V2-Flash Technical Report (Xiaomi, arXiv:2601.02780)
Muon: An optimizer for hidden layers (Jordan et al., 2024)
Muon is Scalable for LLM Training (Liu et al., arXiv:2502.16982)
DeepSeek Sparse Attention (DeepSeek-AI, arXiv:2512.02556, Dec 2025)
Gemma 3n (Google, 2025.06) · Gemma 4 (Google DeepMind, 2026.04)

END

万字长文！近期主流大模型DeepSeek/Kimi/Qwen3-Next/Gemma 2/MiMo的范式演进图9

点击下方名片即刻关注我们