大模型架构的下半场

量子位 2026-04-19 15:57
华中科技大学王兴刚团队 投稿 
量子位 | 公众号 QbitAI

研究者们花了十年去扩展层内的计算能力,却忘了扩展层间的通信能力。
这件事亟需被改变。

大模型架构的下半场图1

过去十年,深度学习领域取得进展的方式出奇地一致:什么都往大了整。更多参数、更多数据、更长上下文。而且确实管用:loss在降,能力在涨,scaling law(扩展定律)精确地告诉研究团队还需要投入多少。

但扩展的方向不同,差异也是巨大的。序列长度的扩展需要真正的创新,也确实催生了一整套机制研究和系统工程。数据的扩展则直截了当:数据越多,loss越低。让模型变得更宽、更深,这看起来也和数据的扩展一样简单。

但宽度和深度真的在同等地发挥作用吗?

并非如此。深度在数量上增长了,但在质量上却没有。层与层之间的通信机制几乎没有变化。接下来本文将解释这一点为什么重要,这不仅关乎网络的深度本身,更关于研究团队设计神经网络架构时的一个集体盲区。

上半场

要看清上半场做对了什么,就看看什么被成功地扩展了,以及是怎么做到的

先看序列长度。早期Transformer只能处理几百个token。要达到128K+,需要多个方向上的持续创新:新的注意力模式(稀疏、线性、混合)、系统工程(FlashAttention)、位置编码的进步(RoPE scaling)。研究者和工程师们共同建造了一整个生态,持续改进token之间的通信方式。而回报颇丰,研究团队不止能够处理极其长的文档,还为OpenAI-O1和DeepSeek-R1的长链推理奠定了坚实的基础。这就是当研究团队认真投资于“信息在序列维度上的流动方式时”,所收获的斐然成果。

大模型架构的下半场图2

 现代LLM中的参数与数据规模迅速增长

参数和数据的扩展是最符合人类直觉的部分。从深度学习的最早期开始,每本教科书都在教授同一套配方:更多数据、更宽的层、更深的网络,自然带来更好的表征。从GPT-2的15亿参数到如今的数万亿,这套配方一直管用。这似乎说明大模型团队不需要引入新机制,只需要持续拓展这些被验证了的方向。

只不过,对网络而言,更宽更深往往并不是一回事。宽度的扩展是自然而然的:现代GPU天生擅长处理更宽的矩阵乘法,注意力机制的演进越来越高效,这使得更宽的网络可以无缝接入现有架构。

而深度则是另一个故事。模型确实变深了:研究团队将模型加到32层、64层、甚至100层以上。但层间通信的机制本质上还是ResNet在2015年引入的深度残差,“x + F(x)”。自它诞生以来,围绕它有过不少改良(归一化位置、残差缩放、跨层连接),但没有任何改良真正取代过那个深度残差中“+”的决定性地位。

残差连接可以说是深度学习中最重要的基石。没有它,就没有100层的Transformer,没有现代LLM,没有scaling law。但基础性方案有一个特点:它们有时会变得太过隐形,以至于没人再去质疑它到底是最优解,还是仅仅是研究团队探索出的第一个能用的方案。

打个比方,想象一个有特殊规则的传话游戏。在标准版本里,第1个人对第2个人耳语,第2个人再对第3个人耳语。到第18个人的时候,消息已经面目全非了。这就是没有残差连接的深层网络:每一层只能看到上一层的输出。

残差连接修复了这个问题:每个人在传达自己的理解的同时,也把之前积累的原始信息原封不动地往下传。第3个人既能听到第2个人的新解读,也能听到之前的所有内容。原始信号始终被保留,它成为了不断壮大的合唱中的一个声部。

但到了第152个人,你同时在听152个声音:原始信息加上151层叠加上去的内容,全部混在一句耳语里。理论上,前面那些人的声音依然存在,但它们已经被淹没了。如果第152个人需要知道第3个人具体说了什么,他得费力地从这首宏大的合唱声中把它挑出来。

大模型架构的下半场图3
消息累加的传话游戏中,靠后的人依然难以分辨出所需的内容

通常而言,第152个人是做不到这一点的。

这就是信息稀释。每一层都面临两难:倘若该层贡献新信息就可能会掩盖之前的内容,但保守不动则能保留之前层传过来的已有信息。这种状况下,很多层学会了保守不动,它们几乎不往残差流里写入任何东西。这样的深度网络在纸面上很深,实际上却很浅。研究团队堆了152层,但其中很多层却只学会了保持沉默。

这里的瓶颈不在于152层网络所需求的算力,而在于信息穿过这些层的通信能力。CPU的发展在几十年前就撞过同样的墙:处理器越来越快,直到内存带宽跟不上了,逼得整个行业转向缓存和通信。组织管理也一样:一群聪明人所能发挥出的创造力,也受限于他们之间的沟通、组织方式。深度学习正在经历自己的版本:十年来不断增强每一层的能力,而层与层之间的通道始终是2015年那条单车道公路。

那么,有没有更好的机制?

配方

本文所介绍的研究之前已经有很多研究者注意到了深度瓶颈。多年来,修补方案越来越巧妙:获评CVPR best paper的DenseNet保留了每一层的输出,但代价是平方级的开销。使用可学习加权的方案DenseFormer、LIMe降低了成本,但训练完成后权重就固定了,每个token、每套上下文都用同样的权重。

字节跳动的Hyper-Connections和DeepSeek的mHC另辟蹊径,它们把管道拓宽到N个通道,层间用混合矩阵连接,这相当于信息高速公路上同时多了好几条车道。但坏消息是,信息仍然在逐层流动,第152层没有办法直接回溯到第3层。

彩云公司的MUDDFormer让混合每层输出这件事变成动态的,它会根据每个token的表征来生成权重。这在根本方向上是对的:从每一层汲取多少信息本就应该取决于你正在处理的内容。但同样有个坏消息,第152层在决定从第3层汲取多少时,只依赖第152层本身的状态,它并不知道第3层实际包含了什么。它是在预测哪些层有用,而不是在查看

以上的每一步都修复了一个真实存在的缺陷,但却鲜有哪一个方法质疑过深度残差的框架本身。

不难发现,这些方法都有着一个共同点。从DenseNet到Hyper-Connections,每个方法都在回答同一个隐含的问题:“如何才能更好地混合各层的输出?”更好的系数,更多的通道,自适应的权重。但自始至终都是混合,自始至终都是累加。ELMo早就表明,不同的层编码的是截然不同的信息:浅层编码句法,深层编码语义。所有人得出的结论都是“学习更好的混合权重用来平衡句法语义”。但还有一条被主流忽视的道路:如果不同层持有不同信息,也许每一层应该能够根据内容而非位置,从持有所需信息的那一层直接检索

这就是范畴谬误:把层间通信当作累加(用学习到的或生成的系数来组合信号)而非检索(通过基于内容的匹配来选择信息)。在累加框架下,即使是动态方法也只从当前层的状态生成混合权重,而不去查看信息的来源层实际包含了什么。在检索框架下,Query(查询)编码的是“我需要什么”,Key(键)编码的是“我有什么”,而它们之间的运算决定了相关性。Query和Key双方都应该有发言权。

回到传话游戏。之前所有的方法都在试图产生一个更清晰的合唱:更好的发音、更多的中继通道、自适应的音量。没有一个质疑过这个根本约束:所有声音必须累加成一个声音吗?也没有人问过:咱是否可以直接走回去,跟之前的任何一个人当面对话呢?

研究团队认为这种范畴谬误在架构设计中无处不在。当某个东西足够好用的时候,你不会去质疑它的概念框架,而只会在框架内改进。经历了多年越来越巧妙的修补之后,研究者才明白:深度维度的残差连接需要的不是更好的系数,而是被一种根本不同的操作所替代:

一种在序列维度上已经成功解决了同样问题的操作。

大模型架构的下半场图4

△ 因果注意力机制在序列维度(横向)上聚合信息

下半场

一旦研究团队把层间的通信理解为检索而非累加,一个很自然的答案就是在深度维度上引入注意力机制。包括研究者团队在内的很多团队都独立地收敛到了这个想法:谷歌提出的 DCA、华为的MRLA、Hessian.AI的 Dreamer、Kimi的AttnRes、以及研究者团队提出的Flash Depth Attention & MoDA,大家都尝试在层间应用点积注意力。这种独立趋同本身就是一个信号:方向走对了!

大模型架构的下半场图5

△ 深度注意力机制在深度维度(纵向)上聚合信息

但找对方向和做出成品是两回事。研究者自述:“第一次用Pytorch实现运行深度注意力的时候,前向和反向传播共计耗时达到了44,924 ms。44秒啊!朋友们!这个时间都够我喝完一瓶500毫升的冰红茶了!”
也就是说,在深度维度上应用注意力机制的想法本身没问题,但工程现实却残酷到了极点。现代GPU为大规模的矩阵乘法做了大量优化,却不擅长数千个跨深度的极小规模的注意力操作。深度注意力作为一个计算量不大的算法,跑起来却可能慢得要命。

大模型架构的下半场图6

 Pytorch实现的深度注意力(DepthRef)很慢;Flash Depth Attention(FDA)很快。

至此,之前的方法都陷入了两难:要么简化深度注意力来换速度,这种方式丢掉了完整的选择性检索这一核心价值;要么保持完整的表达能力,但运算代价变得不可接受。研究者团队找到了一条出路:不是简化算法,而是重新组织参与计算的数据布局,从而适配GPU硬件。Flash Depth Attention(https://github.com/hustvl/MoDA)让具备完整表达能力的深度检索快到可以参与实际训练。

大模型架构的下半场图7

 混合深度注意力机制同时在序列维度(横向)和深度维度(纵向)上聚合信息

常规的大模型主干流水线是:残差连接序列注意力残差连接FFN(前馈网络

有了高效的深度检索之后,研究团队注意到网络的主干流水线变成了:深度注意力→序列注意力→深度注意力→FFN(前馈网络)。这三个连续的注意力操作作用于不同的Key(键,缩写作K)和Value(值,缩写作V),却共享着近乎相同的Query(查询)。一个很自然的做法就是把它们融合。

研究者团队提出了混合深度注意力(Mixture-of-depths Attention,MoDA)将深度检索和序列检索合并到一个统一的softmax中。每个注意力头同时关注当前层的序列KV对(键值对)和所有前序层的深度KV对(键值对)。在同一个softmax 下,模型可以自由决定何时关注序列中的其他token,何时跨层检索自身的历史信息。通过一次操作,MoDA完成了两个维度的检索。

大模型架构的下半场图8

 左侧区域是序列KV,右侧区域是深度KV。颜色越黄,注意力越强。

回到传话游戏。在残差连接的版本里,第152个人费力地从累加的合唱中辨认第3个人的声音。有了深度检索,第152个人拍拍第3个人的肩膀直接问:“你刚才说了什么?”没有中间人,没有累积的噪音。

可视化的实验结果也印证了这个类比所预测的现象:当模型获得了通过深度KV从特定层进行选择性检索的能力时,它会持续且主动地使用这种能力。之前困扰模型架构研究员们的Attention Sink(注意力沉没)现象,即模型把概率质量堆积在少数固定token上的行为,也随之减弱。这就是当研究者团队尝试发展层之间而非仅仅层之内的信息流动时,所取得的有趣成果。

大模型架构的下半场图9

 引入深度注意力后,传话游戏允许每个人用手机查看群聊记录。

大模型架构的上半场是关于扩展组件的。研究者们扩展出更长的序列,更多的数据,更大的模型。这个阶段最关键的问题是“怎么把一切都做大?”。在上半场,这是正确且关键的问题,它把整个领域从GPT-2带到了GPT-4时代。下半场是关于扩展通信的。新的问题是:“组件之间的通信质量如何?

大模型架构的下半场图10

引入混合深度注意力后,在主流的开源基线(OLMo2)上全面提升了模型能力。

深度是最明显的例子,因为现有方案(累加)和可能的方案(选择性检索)之间的差距是巨大的。研究者团队相信这个原则是可以推广的。凡是神经网络使用静态的、与数据无关的通道来传递信息的地方,包括层与层之间、模态与模态之间、时间步与时间步之间等等,很可能都会有一个检索机制等着替代那个累加操作。

全世界的研究者们花了十年掌握token之间如何对话,现在是时候掌握层与层之间如何对话了。而最终,研究者们将掌握神经网络中每个组件如何与其他任意组件对话。

深度残差的“+”带我们跑过了一段极为精彩的旅程,但现在,是时候升级这座阶梯了。

欢迎来到大模型架构的下半场。

Flash Depth Attention & MoDA论文链接
https://arxiv.org/abs/2603.15619
Flash Depth Attention & MoDA代码链接:
https://github.com/hustvl/MoDA
实验室主页:
https://github.com/hustvl

论文主要作者来自于华中科技大学(HUST)电子信息与通信学院视觉实验室(Vision Lab)。HUST Vision Lab研究主要集中在计算机视觉和深度学习领域,尤其关注以下方向:多模态基础模型、视觉表征学习、目标检测、分割与跟踪、端到端自动驾驶、新型神经网络架构。

HUST Vision Lab致力于不断突破视觉智能的边界,代表性工作包括:CCNet(TPAMI 2020,4300+引用,1.5K Star)、Mask Scoring R-CNN(CVPR 2019,1400+引用,1.9K Star)、FairMOT(IJCV 2021,2200+引用,4.2K Star)、ByteTrack(ECCV 2022,3400+引用,6.2K Star)、EVA(CVPR 2023,1100+引用,2.7K Star)、MapTR(ICLR 2023,400+引用,1.5K Star)、Vectorized Autonomous Driving (VAD)(ICCV 2023,600+引用,1.3K Star)、DiffusionDrive(CVPR 2025,200+引用,1.3K Star)、Vision Mamba (Vim)(ICML 2024,3100+引用,3.8K Star)、4D Gaussian Splatting (4DGS)(CVPR 2024,1400+引用,3.5K Star)、YOLOS(NeurIPS 2021,500+引用,900+ Star)、YOLO-World(CVPR 2024,1000+引用,6.3K Star),以及 LightningDiT & VA-VAE(CVPR 2025,200+引用,1.4K Star)。

 

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
大模型
more
华为盘古大模型负责人王云鹤离职,将投身Agent创业
晚点独家丨火山引擎云端大模型日均调用量破百万亿 Tokens,AI 云竞争日趋激烈
罗技关停多个平台直播,盘古大模型负责人王云鹤离职,国际民航组织收紧充电宝政策,起诉小米的老头乐企业致歉,这就是今天的其他大新闻!
大模型能“原地”改参数了!字节Seed&北大新论文:测试时推理无需加层重训练
ColaVLA:自动驾驶大模型,不一定非要把「思考过程」写成文字
视频能PS了?阿里视频大模型拯救废片,我用它捏脸、换角色、改剧情
千问3.5-Max-Preview亮相LM Arena,阿里登顶中国大模型榜首
小米加码AI战略布局:160亿年度投入启动专项人才计划,MiMo大模型跻身全球第一梯队
斯坦福年度结论:中美大模型已没差距
大模型架构的下半场
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号