
智猩猩主办的2026中国AI智能体大会7月2-3日杭州举行,大会设有开幕式,企业级AI智能体、AI智能体产品创新2场论坛,以及Coding Agent、自进化智能体、深度研究智能体、Computer-Use Agent、多智能体协同、Agent Skills、Agent Harness7场技术研讨会。天津大学郝建业教授,复旦肖仰华教授,阿里巴巴通义实验室算法专家李晨亮,腾讯Frontier团队专家研究员王琰,美团通用Agent团队负责人顾奇将出席演讲。
作者:天晴
地址:https://zhuanlan.zhihu.com/p/2020284380107552009
经授权发布,如需转载请联系原作者
其实这些架构可能打破了Transformer的对称性,需要系统基建来适配,以及有可能反而会降低速度,这个我还比较存疑。
01
Engram
DeepSeek 2026 年 1 月的工作。
起点是一个观察:语言建模其实包含两种很不一样的子任务,组合推理和知识检索。识别 "Diana, Princess of Wales" 这个实体,模型要消耗好几层 Transformer 逐步拼出来,先识别 Wales 是英国一个地区,再识别 Princess of Wales 是头衔,最后才拼成完整实体。但这件事理论上查一次表就行了。



Engram 的做法本质上是一个升级版的 Embedding Layer。标准 input embedding 是一个 token ID 查一个表取一个向量,Engram 也是查表取向量,但有几个不同:
查的是 bigram 和 trigram 的组合,不是单个 token。"of" 和 "Wales" 各自有向量,但 "of Wales" 作为一个搭配的语义信息,标准 embedding 捕捉不到,Engram 可以。
不在 Layer 0 注入,放在 Layer 2 和 Layer 15。这个很关键。论文提到了 OverEncoding 那个工作,就是把 N-gram embedding 加在 Layer 0 做平均,结果在 MoE 主干上基本没用。原因是 Engram 有一个上下文门控,需要前面 attention 层产生的 hidden state 来判断检索结果靠不靠谱。Layer 0 没有上下文,门控没法工作。
查完要过门控。哈希查表必然有碰撞,"Apple pie" 和 "Apple Inc." 里的 apple 可能映射到同一个 slot。门控用当前 hidden state 跟检索到的 key 算相似度,不相关就压到 0。
一个容易误解的地方是 Engram 没有 N-gram 词典。它建了一个固定大小的表(约 226 万个 slot),用哈希函数把任意 N-gram 映射进去。碰撞靠多头哈希缓解,每个 N-gram 阶用 8 个独立的哈希头映射到不同的表,取出来拼接。再加上门控兜底。
从系统角度看,查找是 O(1) 的,完全不依赖 hidden state,只要知道 token 序列就能预算索引。这跟 MoE 不同,MoE 的路由要等 runtime hidden state 算出来。Engram 的确定性让推理时可以异步预取:GPU 算前面的层,同时从主机 DRAM 通过 PCIe 把 embedding 拉过来。放在 Layer 2 也有这个考虑,需要前面两层的计算时间来掩盖传输延迟。100B 参数的表全放 DRAM,吞吐量损失不到 3%。
论文扫了 MoE 和 Engram 之间的参数分配比,发现 U 形曲线,大约 75%-80% 给 MoE、20%-25% 给 Engram 最优。
最反直觉的结果是 Engram 在推理任务上提升比知识任务更大,BBH +5.0 大于 MMLU +3.4。机理分析发现 Engram 把早期层从静态模式重建中解放出来,第 5 层的表征对应 baseline 第 12 层。不是给模型更多知识,是给模型更多思考空间。
Per-Layer Embeddings(PLE)
Google,2025 年 6 月 Gemma 3n 首次引入,2026 年 4 月 Gemma 4 沿用。
标准 Transformer 里,每个 token 在输入层查一次 embedding 表,得到一个 维向量,然后这个向量一路传过所有层,残差流在上面不断累加。问题是这要求 embedding 必须”前置装载”(frontload)所有层可能需要的信息,浅层需要的语法特征、深层需要的语义特征,全靠这一个向量带进去。
PLE 的做法是:不再只给一次 embedding,而是每层都给一个专属的小 embedding。
PLE 为每个 token 在每一层产生一个低维向量(Gemma 4 中
Token-identity 分量。 一张独立于主 embedding 表的 PLE 查找表。表的形状是
Context-aware 分量。 把主 embedding(已经过标准 embedding 层的输出)通过一个线性投影
两个分量相加再乘
关键是这个计算只在推理开始时做一次,所有层的 PLE 向量一次性算好缓存。后续各层按需取用自己那一层的
注入方式:门控残差
每层拿到自己的 PLE 向量后,不是无条件加到 hidden state 上,而是过一个门控:
内存模型:参数卸载
PLE 的设计动机是端侧部署。Gemma 4 E2B 总参数量约 50 亿,但核心 Transformer 权重只有约 20 亿,剩下的大部分是 PLE 的 embedding 表。
传统做法需要把整个 embedding 表放在 GPU VRAM 里。以 Gemma 4 E2B 为例,词表 262144、PLE 维度 8960、bfloat16 精度,这张表就是
PLE 的卸载策略:
PLE 表存在 CPU 内存或闪存上,不占 GPU VRAM 推理开始时,根据输入序列的 token ID,只拉取当前序列用到的那些行到 GPU 一次性算好所有层的 PLE 向量并缓存 推理过程中逐层消费,用完即丢
这就是为什么 Gemma 4 E2B 叫”E2B”,E 代表 Effective,总参数 50 亿但有效显存占用只有 20 亿。PLE 的表虽然大,但只用于
跟 Engram 的异同
PLE 和 Engram 解决的是类似的问题:标准 embedding 层信息容量不够。但路径很不同。
Engram 是 N-gram 哈希查表 + 上下文门控,放在 Layer 2 和 15,只查两次。PLE 是逐层都给 embedding,每层一个。Engram 的设计更重,226 万个 slot、多头哈希、100B 参数放 DRAM,但它捕捉的是 N-gram 组合语义(”of Wales” vs “of” + “Wales”),PLE 只看单 token ID。
Engram 论文的结论是它把早期层从模式重建中解放出来,PLE 做的事情类似但粒度更细,每层都有机会接收新的 token 信号,不需要把所有信息压在入口。
两者在动机上也有区别。Engram 的核心诉求是效果(把知识检索从推理中分离),PLE 的核心诉求是效率(把大参数量卸载到慢存储上,让小模型在端侧跑起来)。
跟 AttnRes的关系
AttnRes 也试图解决”深层无法有效获取浅层信息”的问题,但它通过层间 attention 从前序层的 hidden state 中检索。PLE 更直接:不从 hidden state 检索,直接给每层一份原始 token embedding 的”小抄”。
AttnRes 是动态的(内容依赖的层间权重),PLE 是半静态的(token-identity 部分在推理中固定,context-aware 部分只算一次)。AttnRes 的计算发生在运行时、在层间传播路径上,PLE 的主要计算发生在预处理阶段、离线完成。
局限
PLE 目前只用于 Gemma 4 的小模型(E2B、E4B),31B Dense 和 26B MoE 不用。这说明 PLE 的收益在大模型上可能不明显,大模型本身有足够的层数和宽度来逐层精炼表征,不太需要额外的 per-layer 信号。PLE 更像是小模型”以大换小”的手段:用一张大但便宜的查找表,补偿窄主干带来的表征瓶颈。
另一个限制是多模态输入。图像和音频 token 没有 token ID(它们是 soft token),PLE 只能给它们 pad token 的 embedding,等于对视觉和音频信号不起作用。
02
mHC
DeepSeek 2025 年 12 月的工作。

标准残差连接是单条流,所有信息挤在一根 d 维管道里。Hyper-Connections(HC)的想法是展宽成 n 条并行流(n=4),用可学习矩阵控制流间混合。单层更新公式变成:
这里
问题出在多层叠加。把这个公式递推展开到第 L 层:
标准残差展开后对应的是恒等映射
mHC 把
消融实验有个值得注意的结论:三个映射矩阵里,
额外训练开销 6.7%(n=4)。
03
AttnRes
Kimi 2026 年 3 月的工作。

论文抓了一个类比。RNN 把历史信息压缩到一个 hidden state,远距离信息丢失。Transformer 用 attention 解决了这个问题,让每个位置直接看到所有历史。这是序列维度的改进。
残差连接在深度维度上做的事跟 RNN 一模一样。所有前序层的输出被无差别累加成一个 hidden state,没有机制让某层选择性回看更早的层。AttnRes 就是对深度做同样的事:用 softmax attention 替代固定权重累加。
每层 l 配一个可学习的向量
论文有个统一分析框架,证明标准残差和 Highway Network 都是深度维度上的线性 attention(固定权重求和),AttnRes 是深度维度上的 softmax attention(学习的、内容依赖的权重)。序列维度上这个从线性到 softmax 的转变催生了 Transformer,深度维度上就是 AttnRes。
Full AttnRes 要存所有 L 层输出,O(Ld) 的内存和通信开销在大规模流水线并行下不可接受。Block AttnRes 把层分成约 8 个 block,block 内用标准残差累加(和以前一样),block 间才做 attention 回看。N≈8 就恢复绝大部分收益,等效 1.25 倍计算预算的 baseline,实际额外开销不到 4%。
另一个发现是 AttnRes 缓解了 PreNorm 稀释。PreNorm 是目前主流的 Transformer 层归一化方式(在 attention/FFN 之前做 LayerNorm),但它有个已知问题:随着深度增加,hidden state 的幅值不断增长,每一层新增的信息在整体中的占比越来越小,相当于被”稀释”了。加了 AttnRes 后,各层 output magnitude 更均匀,深层不需要产生越来越大的输出来争夺影响力。
04
Gated DeltaNet
+Gated Attention
Qwen3-Next,2025 年 8 月。

不改残差,改 attention 本身。核心观察是不是每层都需要 full softmax attention,标准 attention 对每个 token 计算与所有其他 token 的相似度(O(n²)),但很多层实际只需要处理局部依赖,全局计算对它们来说是多余的。
Qwen3-Next 的方案是 3:1 交替,每 3 层用 Gated DeltaNet(一种线性 attention),第 4 层用 Gated Attention(带门控的 full softmax attention)。这种不同层用不同 attention 的模式叫 hybrid attention,后面 SWA/GA 交替那节也是 hybrid attention 的一种,只是混合的组件不同。
先说线性 attention 是什么。标准 softmax attention 算 softmax(QK^T)V,瓶颈在 QK^T 是 n×n 的矩阵。线性 attention 的思路是去掉 softmax,让计算可以换一种顺序:先算 K^T V(d×d 的矩阵,跟序列长度无关),再乘 Q。复杂度从 O(n²d) 变成 O(nd²),长序列下差别很大。在自回归场景下,这可以写成递推形式:维护一个 d×d 的状态矩阵 S,每来一个新 token 就把它的 kv 外积加到 S 上,然后用当前 query 去读 S。变成了一个 RNN,每步 O(d²),不需要存整个序列的 KV cache。
但朴素线性 attention 效果不好。softmax 除了归一化,还起到了稀疏化的作用(大值被放大、小值被压制),去掉之后 S 容易被不相关信息污染。Gated DeltaNet 在这个基础上做了两个改进。
第一个是门控衰减。朴素版本 S 只进不出,信息越积越满。加门控后
第二个是 delta rule。朴素版本直接把 kv^T 加到 S 上,不管 S 里是否已有这个信息。Delta rule 先用当前 k 查 S 看预测值是什么(
Gated Attention 是在标准 multi-head attention 的输出后加了一个 sigmoid 门控。算完 softmax(QK^T)V 之后,另外从输入算一个门控信号 g = sigmoid(Wx),然后把 attention 输出逐元素乘以 g。这个门的作用是压制 attention sink 现象,attention sink 是指模型倾向于把大量 attention weight 集中到序列开头的几个 token 上,不管它们的内容是否有用,这种现象在长序列上特别明显。门控可以在输出端把这些无意义的高 attention 值压下去。
Kimi Linear 在这基础上做了两处改进。一是 Kimi Delta Attention,把 Gated DeltaNet 里控制衰减速率的标量门控升级为通道级门控:原来整个 attention head 共享一个 β 值,现在每个特征维度有自己独立的 β,控制粒度更细。二是把 Gated Attention 层替换为 MLA,进一步压缩 KV cache。
到 Qwen3.5(2026.02),Gated DeltaNet hybrid 已经成为 Qwen 系列的标准配置。
05
滑动窗口注意力
与全局注意力交替
跟 Gated DeltaNet hybrid 思路一脉相承:不是每层都要看全局。但实现方式不同。
先解释两个概念。全局注意力(Global Attention)就是标准的 softmax attention,每个 token 看到序列里所有其他 token,计算量 O(n²)。滑动窗口注意力(Sliding Window Attention, SWA)是限制版的 softmax attention,每个 token 只看自己前后一个固定大小窗口内的 token,窗口外的完全看不到。计算量从 O(n²) 降到 O(nw),w 是窗口大小。对应地,SWA 层的 KV cache 只需要存窗口大小的 key/value,不需要存整个序列的。
两种 attention 交替使用的思路很直观:SWA 层负责局部上下文建模(比如句法结构、短语搭配),全局注意力层负责远距离依赖(比如跨段落的指代消解、长距离推理链)。大部分层用便宜的 SWA 就够,少数几层用全局注意力来融合全局信息。
Gemma 2(Google,2024)和 Mistral 是较早用这个方案的,1:1 交替(一层 SWA 一层全局),窗口 4096。MiMo-V2-Flash(小米,2026.01)推到了极端:5:1 交替(5 层 SWA 才 1 层全局),窗口只有 128 token。
128 是个很激进的数字,大多数 SWA 设计用 4096。MiMo 让它 work 靠两个设计。
第一个是 learnable attention sink bias。attention sink 这个现象前面 Gated Attention 那段提到过:模型倾向于把 attention weight 集中到序列开头几个 token。在全局注意力下这只是效率上的小浪费,但在 128 的小窗口下就成了大问题,因为开头的 token 根本不在窗口里,模型想 attend 到它们也做不到。MiMo 的做法是给 SWA 层的 attention score 加一组可学习的位置偏置,让模型可以对窗口内的特定位置(比如窗口的开头和结尾)赋予额外的权重,部分补偿了无法看到全局 sink token 的损失。消融实验证实没有这个 bias 的 128 窗口性能明显掉。
第二个是第一层强制用全局注意力加稠密 FFN。稠密 FFN 是相对于 MoE FFN 而言的,MoE 的 FFN 每个 token 只激活一小部分专家,稠密 FFN 则是每个 token 都走完整的前馈网络,参数利用率更高。MiMo 的其他层都用 MoE,但第一层特意用稠密 FFN,理由是第一层要把 token embedding 变成有意义的初始表征,这个阶段信息还很稀疏,让所有参数都参与进来比稀疏激活更稳定。这跟 Engram 放 Layer 2 不放 Layer 0 的逻辑类似:第一层需要特殊对待。
SWA 和 DeltaNet 虽然都是”省计算”的 attention 替代方案,但机制上有本质区别。SWA 是看不远但看得清:窗口内还是精确的 softmax attention,什么信息都不丢,但窗口外完全看不到,是硬截断。DeltaNet 是看得远但有损压缩:通过状态矩阵,即使单独一个 DeltaNet 层也能(有损地)访问整个历史,但压缩过程不可避免地丢失细节。所以 MiMo 需要 sink bias 来补偿窗口外的信息丢失,DeltaNet 不需要这个 trick,因为它本身就有跨窗口的信息传递能力。
06
MLA(MMulti-Head Latent Attention)
DeepSeek V2(2024 年 6 月)提出,V3、R1 沿用,现在 Kimi K2、Kimi K2.5、GLM-5、Ling 2.5、Mistral Large 3 等也在用。
问题来自 KV cache。标准多头注意力(MHA)推理时要把每个 token 的 key 和 value 都缓存下来,每个 token 要存 2 × 头数 × 每头维度 这么多数据。DeepSeek V3 有 128 个头、每头 128 维,一个 token 的 KV cache 就是 32768 个元素,长序列下 GPU 显存很快被吃光。之前的方案是 GQA(Grouped-Query Attention)和 MQA(Multi-Query Attention),让多个 query 头共享同一组 key/value 头,减少缓存量。但共享意味着不同头看到的 key/value 是一样的,表达力打折扣,DeepSeek 的消融实验显示 GQA 性能不如 MHA。
MLA 换了个思路:不减少头的数量,而是压缩每个 token 要存的东西。引入一个下投影矩阵
DeepSeek V3 的 latent 维度设为 512,完整 KV 维度是 128×128 = 16384,压缩比 32 倍。KV cache 减少 93.3%,推理吞吐量提升 5.76 倍。
关键是这不是简单的质量换速度。GQA/MQA 通过共享头来省内存,丢掉了信息。MLA 通过低秩压缩来省内存,但每个头在计算时仍然解压出自己独立的 key 和 value,表达力不打折。DeepSeek 的实验显示 MLA 性能反而略好于标准 MHA。一种解释是低秩压缩起了正则化效果,迫使模型把信息组织到更紧凑的表征空间里。
工程上还有一个优化叫 weight absorption:推理时
有个细节是 RoPE(旋转位置编码)跟低秩压缩不兼容,RoPE 需要直接作用在 key 上,但 MLA 的 key 是从 latent 解压出来的。DeepSeek 的解法是 decoupled RoPE:一部分 key/query 维度专门走 RoPE 不参与压缩,剩下的走正常低秩流程。额外的位置信息维度也要缓存,但相比省下的量可以忽略。
值得一提的是 GLM-5 在采用 MLA 时发现了一个问题:用 Muon 优化器训练时,MLA 的 576 维 latent KV cache 性能不如 GQA-8。他们搞了个叫 Muon Split 的改进,让不同 attention head 的投影权重以不同的 scale 更新,才把 MLA 性能拉到和 GQA 持平。这说明 MLA 不是随便拿来就能用的,优化器和注意力机制之间存在耦合,换了优化器可能需要重新调整。
DSA(DeepSeek Sparse Attention)
DeepSeek,2025 年 9 月发布 V3.2-Exp,2025 年 12 月正式发布 V3.2。
MLA 解决了 head 维度的冗余:128 个头的 KV 压缩到一个 512 维 latent,缓存省 93%。但序列维度的问题没动,每个 query 还是要跟序列里所有 token 算注意力,
DSA 在 MLA 的基础上做了序列维度的稀疏化。核心思路是:不让主注意力去扫全部 token,而是先用一个极轻量的模块快速判断哪些 token 值得看,只把这些 token 送进主注意力。
DSA 由两个组件构成:闪电索引器(Lightning Indexer)和细粒度 token 选择。
索引器计算查询 token
有了索引分数,对每个 query 取 Top-2048,主注意力只在这 2048 个 token 上计算:
每层独立选择。不同层的隐藏状态不同、索引器参数不同,选出的 token 集合也不同。这跟直觉一致:浅层关注局部语法,深层关注语义和长程依赖,没理由用同一批 token。
在 MLA 下的实例化:
DSA 基于 MLA 的 MQA 模式实例化。MLA 推理时每个 token 只缓存一个 latent 向量,所有 query 头共享同一个 latent 做键值。DSA 在此基础上做 token 选择,等于在 MLA 已经压缩过的 KV cache 上再做一次筛选。两者的稀疏化维度正交:MLA 压缩 head 维度(从 128 头到 1 个 latent),DSA 压缩序列维度(从
训练:两阶段继续预训练
DSA 不是从头训练的,而是在 V3.1-Terminus 检查点上通过继续训练引入。这很重要——如果从头预训练,代价跟重新训一个模型差不多;继续训练只需要不到 1 万亿 token。
阶段一:稠密热身。 冻结全部主模型参数,只训索引器。主模型正常跑全量注意力,把注意力分数在所有头上求和、L1 归一化后得到目标分布
本质是蒸馏:主注意力是 teacher,索引器是 student。学习率
这个阶段必须用全量注意力,不能上来就让索引器选 Top-k。原因是经典的冷启动问题:索引器随机初始化时选出的 token 基本是垃圾,在垃圾 token 上算出的注意力分布也是垃圾,用垃圾去监督索引器只会恶性循环。全量注意力提供了一个与索引器状态无关的稳定监督信号,打破了这个循环。
阶段二:稀疏训练。 解冻主模型,启用 Top-k 选择,索引器和主模型同时训练。此时 KL 散度损失只在被选中的 token 集合
一个关键设计:索引器输入从计算图中 detach。索引器只通过
学习率
两阶段本质上是交替优化:先固定主模型解一个简单的监督学习问题让索引器收敛,再联合微调。跟 EM 算法的思路一致——两个强耦合模块同时从零开始训不如先固定一个。
复杂度分析:
主注意力从
与 SWA 和 Gated DeltaNet 的比较:
DSA 和前面提到的 SWA/GA 交替、Gated DeltaNet hybrid 都在解决同一个问题:不是每个 query 都需要看所有 token。但路径完全不同。
SWA 是硬截断:窗口内精确计算,窗口外完全看不到。信息没有损失但视野受限,需要穿插全局注意力层来补偿。Gated DeltaNet 是有损压缩:通过状态矩阵
DSA 是第三条路:动态、内容感知的稀疏选择。每个 query 根据实际内容从全序列中挑最相关的 token,既不限制视野(可以选到很远的 token),又不压缩信息(被选中的 token 走完整的 softmax attention,精度无损)。代价是索引器的
另一个区别是 DSA 是逐层独立选择,不是 hybrid 架构。SWA/GA 交替和 DeltaNet hybrid 都是不同层用不同机制(有的层全局、有的层局部),DSA 则是每层都用同一套索引器+选择机制,但每层选出的 token 不同。两种思路不冲突,原则上可以叠加:比如部分层用 DSA(需要精确长程依赖的层),部分层用 DeltaNet(只需要粗粒度历史的层)。
跟 MLA 的关系:
如果把 MLA 和 DSA 放在一起看,DeepSeek 在注意力上做了两层正交的压缩:
MLA:head 维度压缩。128 头的 KV 投影到 512 维 latent,缓存省 93%,但每个 query 还是要看全部 token。 DSA:序列维度压缩。每个 query 只看 Top-2048 个 token,但被选中的 token 走完整的 MLA 注意力,精度不打折。
再加上 MoE 在 FFN 层做的专家维度稀疏化(每个 token 只激活 8 个专家),DeepSeek V3.2 实际上形成了三层稀疏体系:expert 选择(MoE)、token 选择(DSA)、head 压缩(MLA)。三者作用的维度不同,可以独立调节。
07
Muon 优化器
上面说的都是架构改进。训练侧也有值得一提的变化,就是 Muon 优化器。DeepSeek 的 Engram 论文和 Kimi K2 都用了 Muon。

Adam 系列优化器对每个参数独立跟踪一阶动量(梯度的移动平均)和二阶动量(梯度平方的移动平均),一个参数一个统计量。Muon 的思路不同:既然 Transformer 里大部分参数是矩阵形式(attention 的 QKV 投影、FFN 的线性层),那为什么不把整个矩阵作为一个整体来优化?
具体做法是先算 SGD 动量(跟传统一样),然后对动量矩阵做一次近似正交化:找到离当前动量矩阵最近的半正交矩阵,用它来替代原始动量做参数更新。数学上等价于对动量做 SVD 分解
正交化在做什么?如果动量矩阵的奇异值分布很不均匀,有几个方向特别大,参数更新就会偏向这几个方向,其他方向被忽略。正交化把所有奇异值拉到 1,让更新在所有方向上均匀分配,防止模型只沿少数主导方向学习。
Muon 只处理 2D 参数(矩阵)。embedding、LM head、RMSNorm 这些标量和向量参数还是用 AdamW。Engram 论文里也是这样,主干参数用 Muon,embedding 表的参数单独用 Adam(学习率 ×5、无 weight decay)。
Moonlight 论文(Muon is Scalable for LLM Training)证明了 Muon 在大规模训练上可行。他们做了两个关键改进让 Muon 能扩展到大模型:加了 weight decay,以及调整了 per-parameter 的更新幅度让 Muon 可以直接复用 AdamW 调好的学习率。Scaling law 实验显示 Muon 的计算效率大约是 AdamW 的 2 倍,同样的 FLOPs 能训出更低的 loss。Kimi K2 在此基础上加了 MuonClip,限制 attention 层的 QK 内积最大值,解决 Muon 在大规模训练时 attention logits 爆炸的问题。
不只省计算,Muon 还省内存。Adam 需要存一阶动量和二阶动量两份额外状态,Muon 只需要一阶动量一份,比 Adam 少存 33%。
08
放在一起看
这几个工作放一起能看到几个共同趋势。
分工在细化。Engram 把记忆和推理分开,Gated DeltaNet hybrid 把局部建模和全局校准分开,滑动窗口/全局注意力交替把局部上下文和长程依赖分开。都在说同一件事:不同类型的计算有不同的最优实现,不该用同一套机制全部处理。
中间层在变特殊。Engram 放 Layer 2 和 15 不放 Layer 0,MiMo 第一层强制用全局注意力 + 稠密 FFN,AttnRes 发现中间层表征最密集。Layer 0 的表征太”生”,末层太 task-specific,好东西在中间。
灵活性在增加但需要配套的稳定机制。标准残差完全静态靠恒等映射保稳定,mHC 用双随机矩阵约束,AttnRes 用 softmax 归一化,Engram 用 sigmoid 门控,Muon 用正交化防止更新偏向少数方向。越灵活越需要有东西兜底。
方案的组合。Engram 论文主干用了 mHC(M=4),Kimi Linear 组合了 Kimi Delta Attention + MLA,Engram 和 Kimi K2 的训练都用了 Muon。这些方向大多是正交的,原则上可以叠加。如果 DeepSeek V4 同时上 Engram + mHC + 某种 attention hybrid,就是条件计算、条件记忆、多流残差、混合注意力四重分工。
Transformer 的层正在从千篇一律变成各司其职。
Engram: Conditional Memory via Scalable Lookup (DeepSeek, arXiv:2601.07372) mHC: Manifold-Constrained Hyper-Connections (DeepSeek, arXiv:2512.24880) Attention Residuals (Kimi Team, arXiv:2603.15031) Qwen3-Next (Qwen Team, 2025) Gemma 2 Technical Report (Google, 2024) MiMo-V2-Flash Technical Report (Xiaomi, arXiv:2601.02780) Muon: An optimizer for hidden layers (Jordan et al., 2024) Muon is Scalable for LLM Training (Liu et al., arXiv:2502.16982) DeepSeek Sparse Attention (DeepSeek-AI, arXiv:2512.02556, Dec 2025) Gemma 3n (Google, 2025.06) · Gemma 4 (Google DeepMind, 2026.04)
END

点击下方名片 即刻关注我们