Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起

机器之心 2026-01-14 14:25
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起图1
编辑|+0
 

站在 2026 年的开端回望,LLM 的架构之争似乎进入了一个新的微妙阶段。过去几年,Transformer 架构以绝对的统治力横扫了人工智能领域,但随着算力成本的博弈和对推理效率的极致追求,挑战者们从未停止过脚步。

 

知名 AI 研究员 Sebastian Raschka 的最新洞察中,他不仅回应了关于「Transformer 是否会被取代」的年度终极之问,更敏锐地捕捉到了近期业界的一个重要转向:从单纯追求模型参数的「大力出奇迹」,转向了混合架构与效率微调的精细化战争。

 

同时,文章还探讨了一个极具潜力的变量:扩散语言模型。这类模型在 Google 等巨头的布局下会有怎样的表现?它们在「工具调用」上的天然缺陷是否会成为阿喀琉斯之踵?而在高质量数据日益枯竭的今天,扩散模型又是否能凭借「超级数据学习者」的特性,成为打破数据墙的关键?

 

以下内容编译自 Sebastian Raschka 的最新博文,并结合文中提及的前沿论文及往期深度分析进行了系统性拓展,以便读者获取更完整的上下文视角。

 

Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起图2

 

 

最近几周,我经常被问到的一个问题是:在 2026 年,我们是否会看到自回归 Transformer 架构(即标准的 LLM)的替代方案。

 

就目前而言,我坚信 Transformer 在未来(至少一到几年内)仍将保持其在 SOTA 性能方面的地位。它是当前 AI 生态系统的基石,拥有最成熟的工具链和优化方案。

 

但是,情况确实会发生一些微调。这并不是说架构会一成不变,而是这种变化更多体现在「效率」和「混合」上,而非彻底的推倒重来。

 

效率战争:

混合架构与线性注意力的崛起

 

临近去年年底,我们看到业界更加关注混合架构以及如何提高其效率。当然,这并不是什么新想法,但近期来自顶尖实验室的发布表明,目前的侧重点已明显向此倾斜。

 

我们回顾一下 DeepSeek V3 以及随后的 R1,它们展示了混合专家模型(MoE)和多头潜在注意力(MLA)的强大之处。DeepSeek V3 通过 MLA 显著减少了推理时的 KV Cache 占用,而 MoE 架构则允许模型在拥有 6710 亿参数的同时,每次推理仅激活 370 亿参数。这种在保持模型巨大容量的同时极致压缩推理成本的设计思路,正是 2025 年末到 2026 年的主旋律。

 

但这还不是全部。除了 MoE,我们看到了更激进的效率尝试,例如 Qwen3-Next、Kimi Linear、Nvidia Nemotron 3,以及采用了稀疏注意力机制的 DeepSeek V3.2。(如果您对更多细节感兴趣,我在之前的《Big LLM Architecture Comparison》一文中对此进行了报道。)

 

Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起图3

带有这类效率调整的 Transformer 架构示意图。

 

 

为什么大家都在卷「线性注意力」或「稀疏注意力」?

 

标准的 Transformer 注意力机制(Scaled Dot-Product Attention)具有 O(N^2) 的复杂度,这意味着随着上下文长度的增加,计算成本呈二次方爆炸式增长。

 

 

 

这些「微调」表明,2026 年的竞争不再仅仅是看谁的模型更聪明,而是看谁能在更长的上下文、更低的延迟下提供同等的智能。

 

扩散语言模型:

速度与代价的博弈

 

话说回来,除了 Transformer 的变体,扩散语言模型怎么样?

 

扩散语言模型之所以具有吸引力,是因为它们能够以相对快速且低廉的成本生成 Token。与自回归模型(AR)那种「一个字接一个字」的串行生成不同,扩散模型采用的是并行生成。

 

想象一下,自回归模型像是一个人在打字,必须打完上一个字才能打下一个;而扩散模型更像是在冲洗一张照片,整段文字从模糊的噪声中同时显现,经过数次「去噪」迭代后变得清晰。

 

我前阵子在《Beyond Standard LLMs》一文中对此多写了一些。简而言之,我认为 2026 年我们会看到更多相关内容,Google 可能会推出 Gemini Diffusion 作为其更便宜的 Flash 模型的替代品。Google 已经在其技术博客中暗示了这一点,强调其生成速度「明显快于我们目前最快的模型」。

 

 

然而,虽然扩散语言模型的优势在于它们可以并行生成 Token,但这同时也是一个巨大的缺点。因为由于并行生成的特性,它们无法在响应链中原生地整合工具调用。

 

在自回归模型中,模型可以生成「调用计算器」的指令,暂停,等待结果,然后再继续生成。而在扩散模型中,整个响应是同时生成的,很难在中间插入一个外部工具的交互步骤。这使得它们在作为智能体使用时面临巨大挑战。

 

Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起图4

文本扩散过程示例。

 

此外,虽然众所周知文本扩散推理效率更高,但最近的研究也表明,如果你为了提升质量而增加去噪步数以匹配自回归模型的性能,那么最终的计算预算其实是相差无几的。

 

数据枯竭时代的「超级学习者」

 

那么,我想表达什么呢?既然扩散模型有这些缺陷,为什么我还认为它值得关注?

我原本计划讨论一月份发布的近期一系列有趣的研究,但我还是想简要重点介绍一篇我在「待读论文」清单上的、2025 年 11 月的有趣论文,它强调了扩散语言模型的一个有趣优势:《Diffusion Language Models are Super Data Learners》。

 

 

Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起图5

来自论文《Diffusion Language Models are Super Data Learners》的带注释图表。

 

这篇论文提出了一个在 2026 年至关重要的观点:当高质量数据变得稀缺时,扩散模型可能是更好的学习者。

 

众所周知,互联网上的高质量文本数据正在接近枯竭。对于自回归(AR)模型来说,通常我们只让模型把数据「看」一遍(1 Epoch)。如果让 AR 模型反复在同一份数据上训练,它们很容易过拟合,即死记硬背训练数据,导致在未见过的新任务上表现下降。

 

然而,上述论文表明,当进行多 Epoch 训练时,文本扩散模型的表现可能优于标准的自回归(AR)大语言模型。

 

根据论文的研究结果,在严格控制的预训练设置下,当唯一数据量有限时,通过增加训练轮数,扩散语言模型的表现持续超越了自回归模型。

 

这一现象被称为「Crossover(交叉点)」:

 

 

 

为什么会这样? 论文归结为三个因素:

 

 

 

 

更有趣的是,论文发现,对于 DLM 来说,验证集损失的上升并不意味着下游能力的下降。即便模型在验证集上看起来「过拟合」了,它在实际任务(如代码生成、推理)上的表现仍在提升。

 

由于成本原因,过去没有人会在多个 Epoch 上训练大语言模型。但在数据枯竭的今天,如果我们不得不进行多 Epoch 训练,扩散模型似乎提供了一条新出路。

 

这确实是有趣的结果!

© THE END 

转载请联系本公众号获得授权

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
具身智能机器人企业完成近15亿元Pre-IPO轮融资;工业自动化厂商高威科被收购 | 一周资本大事件
攻克长文档与多模态挑战,Paper2Video实现学术视频的自动化生产
科尔摩根亮出物流自动化“王牌”:CeMAT Asia展会全栈方案与中国新品齐发
新动作!美的全资子公司更名库卡机器人自动化
雷军:辅助驾驶不是自动驾驶;继续干!传库克明年不退休;Altman:谷歌复苏,OpenAI进入艰难时刻 | 极客早知道
AI初创公司Risotto获1000万美元种子轮融资,瞄准智能客服自动化赛道
意优科技全球首条关节自动化产线投产
亚马逊AWS推医疗AI平台Amazon Connect Health,聚焦行政流程自动化
还在为数据发愁?清华上交等联合综述:详解LLM如何让数据准备“自动化、智能化”
当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号