Kimi提出“注意力残差”新架构,马斯克点赞,中国AI底层创新引全球关注

科技区角 2026-03-19 10:32

【科技纵览】本周,人工智能领域迎来一项备受瞩目的技术突破——由月之暗面(Moonlight AI)旗下Kimi团队发布的论文《Attention Residuals》(注意力残差),将这家中国AI公司推至全球聚光灯下。值得注意的是,该论文第一作者为一名年仅17岁的深圳高三学生,其深度参与核心研究工作,引发业界广泛关注。



xAI首席执行官埃隆·马斯克与Google高级人工智能产品经理Shubham Saboo均在社交平台公开致贺。Saboo特别指出,Kimi的研究正触及Transformer架构中“长达十年无人触碰的部分”。一时间,“打破Transformer架构”“硅谷破防”等夸张表述充斥舆论场。然而事实是,这项工作虽具高度原创性,却并未脱离Transformer的基本框架,更多是在既有路径上的精妙演进。

事实上,对残差连接机制的优化并非全新课题。从2022年的DeepNorm到2024年的DenseFormer,学界持续探索这一深度神经网络“祖传地基”的改进方案。Kimi团队并非首创者,但其提出的“注意力残差”机制,在理论激进性、数学优雅性与工程可行性之间取得了罕见平衡。

研究团队指出,当前主流大模型普遍采用PreNorm归一化策略,虽能提升训练稳定性,却导致早期特征在深层网络中被不断稀释。类比而言,若将模型视为百人程序员流水线,首层编写的“基础代码”在层层累加后逐渐模糊,末位开发者难以回溯原始逻辑。同时,残差累加还会引发数值膨胀与梯度分布失衡,使训练过程极易失稳。

Kimi的关键洞见在于识别出时间维度与深度维度的对偶关系:传统RNN按时间顺序压缩信息,类似残差连接的线性叠加;而Transformer通过注意力机制实现跨时间点的直接交互。受此启发,团队将注意力机制横向迁移至深度维度,提出以Softmax加权替代简单相加——每一层可动态“回看”历史层输出,并聚焦关键信息源,从而实现按需检索而非被动传递。

然而,全注意力残差在千亿参数模型中面临显存与通信开销剧增的现实瓶颈。为此,Kimi设计了“分块注意力残差”(Block AttnRes):将连续多层打包为一个“块”,块内保留标准残差,块间启用注意力机制。此举将复杂度从O(Ld)降至O(Nd),显著降低分布式训练负担。配合本地缓存、双阶段推理与算子融合等工程优化,最终端到端推理延迟增幅不足2%。

实证方面,该架构部署于Kimi Linear 48B(激活参数3B)的MoE模型,在1.4万亿token数据上预训练。结果显示,在相同算力下,新模型性能等效于基线模型投入1.25倍算力的水平。下游任务中,GPQA-Diamond提升7.5%,Math提升3.6%,HumanEval提升3.1%,印证其在长程推理场景中的优势。

月之暗面创始人杨植麟在2026年英伟达GTC大会上强调:“要突破大模型智能上限,必须重构优化器、注意力机制和残差连接等底层基石。”尽管目前核心代码尚未完全开源,且实验基于私有模型与数据,第三方复现仍待验证,但马斯克“光速”点赞已彰显其技术分量。

这项工作并非颠覆Transformer,而是为其注入新的结构活力。它标志着中国AI企业正从应用层竞争迈向底层架构创新的“深水区”,在全球大模型军备竞赛中,展现出不容忽视的技术原创能力。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
谷歌向全美用户免费开放“个人智能”功能,AI助手可跨应用调取用户数据提供定制化服务
马化腾公开谈「龙虾」,能启发微信Agent/小米深夜发三款新模型/网易否认使用AI清退外包员工
端侧AI重构产品,聆思携手家电企业共筑AI普惠的家庭新生态
今日看点:微软重组AI部门,整合Copilot产品线;擎天租宣布获亿元级新融资
全程不用点鼠标,这年头AI自己就把AI视频给剪完了。
月薪3万,AI大厂正在「疯抢」文科生?
0产品获苏妈投资!前腾讯AI大牛刘威视频创业,又融了8000万美元
国产存储突围迫在眉睫,AI驱动涨价潮倒逼产业链自主化
Mistral推企业定制化AI平台Forge,瞄准千亿级政企市场
Gamma推AI图像生成工具Gamma Imagine,剑指Canva与Adobe营销设计市场
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号