Kimi提出“注意力残差”新架构，马斯克点赞，中国AI底层创新引全球关注

【科技纵览】本周，人工智能领域迎来一项备受瞩目的技术突破——由月之暗面（Moonlight AI）旗下Kimi团队发布的论文《Attention Residuals》（注意力残差），将这家中国AI公司推至全球聚光灯下。值得注意的是，该论文第一作者为一名年仅17岁的深圳高三学生，其深度参与核心研究工作，引发业界广泛关注。

xAI首席执行官埃隆·马斯克与Google高级人工智能产品经理Shubham Saboo均在社交平台公开致贺。Saboo特别指出，Kimi的研究正触及Transformer架构中“长达十年无人触碰的部分”。一时间，“打破Transformer架构”“硅谷破防”等夸张表述充斥舆论场。然而事实是，这项工作虽具高度原创性，却并未脱离Transformer的基本框架，更多是在既有路径上的精妙演进。

事实上，对残差连接机制的优化并非全新课题。从2022年的DeepNorm到2024年的DenseFormer，学界持续探索这一深度神经网络“祖传地基”的改进方案。Kimi团队并非首创者，但其提出的“注意力残差”机制，在理论激进性、数学优雅性与工程可行性之间取得了罕见平衡。

研究团队指出，当前主流大模型普遍采用PreNorm归一化策略，虽能提升训练稳定性，却导致早期特征在深层网络中被不断稀释。类比而言，若将模型视为百人程序员流水线，首层编写的“基础代码”在层层累加后逐渐模糊，末位开发者难以回溯原始逻辑。同时，残差累加还会引发数值膨胀与梯度分布失衡，使训练过程极易失稳。

Kimi的关键洞见在于识别出时间维度与深度维度的对偶关系：传统RNN按时间顺序压缩信息，类似残差连接的线性叠加；而Transformer通过注意力机制实现跨时间点的直接交互。受此启发，团队将注意力机制横向迁移至深度维度，提出以Softmax加权替代简单相加——每一层可动态“回看”历史层输出，并聚焦关键信息源，从而实现按需检索而非被动传递。

然而，全注意力残差在千亿参数模型中面临显存与通信开销剧增的现实瓶颈。为此，Kimi设计了“分块注意力残差”（Block AttnRes）：将连续多层打包为一个“块”，块内保留标准残差，块间启用注意力机制。此举将复杂度从O(Ld)降至O(Nd)，显著降低分布式训练负担。配合本地缓存、双阶段推理与算子融合等工程优化，最终端到端推理延迟增幅不足2%。

实证方面，该架构部署于Kimi Linear 48B（激活参数3B）的MoE模型，在1.4万亿token数据上预训练。结果显示，在相同算力下，新模型性能等效于基线模型投入1.25倍算力的水平。下游任务中，GPQA-Diamond提升7.5%，Math提升3.6%，HumanEval提升3.1%，印证其在长程推理场景中的优势。

月之暗面创始人杨植麟在2026年英伟达GTC大会上强调：“要突破大模型智能上限，必须重构优化器、注意力机制和残差连接等底层基石。”尽管目前核心代码尚未完全开源，且实验基于私有模型与数据，第三方复现仍待验证，但马斯克“光速”点赞已彰显其技术分量。

这项工作并非颠覆Transformer，而是为其注入新的结构活力。它标志着中国AI企业正从应用层竞争迈向底层架构创新的“深水区”，在全球大模型军备竞赛中，展现出不容忽视的技术原创能力。