在大语言模型(LLM) 领域,自回归(AR) 架构长期占据主导地位,但以掩码扩散模型(MDM) 为代表的扩散语言模型(DLLM) 凭借独特的迭代生成机制,正成为极具潜力的替代范式。
然而,现有MDMs多依赖密集Transformer backbone,面临参数规模与推理效率难以平衡的困境——要提升性能往往需要堆砌参数,这无疑增加了部署成本。
最近,中国人民大学高瓴人工智能学院与蚂蚁集团的联合团队提出了LLaDA-MoE,一款融合稀疏混合专家(MoE)架构的扩散语言模型。它通过7B总参数、仅1.4B激活参数的设计,在20T tokens的大规模预训练支持下,不仅超越了8B参数的传统扩散模型,还能与3B参数的主流自回归模型掰手腕,为扩散语言模型的高效化发展开辟了新路径。

论文链接:https://arxiv.org/pdf/2509.24389v1
开源链接:https://huggingface.co/collections/inclusionAI/llada-68c141bca386b06b599cfe45
点击下方卡片,关注“大模型之心Tech”公众号
为什么要做LLaDA-MoE?解决扩散模型的“效率痛点”
在深入LLaDA-MoE之前,我们需要先理解其诞生的技术背景——扩散语言模型的潜力与瓶颈。
1. 扩散语言模型:AR架构之外的“新选择”
不同于自回归模型从左到右的逐token生成方式,掩码扩散模型采用迭代修复机制:从完全掩码的序列()开始,模型会反复预测被掩码的token并逐步解除掩码,直到生成完整序列()。这种方式的优势在于:
并行性潜力:生成过程中可对多个掩码位置进行并行预测,理论上比自回归模型更高效; 生成可控性:通过调整噪声水平(),能更好地平衡生成文本的多样性与准确性; 性能竞争力:此前的LLaDA-8B(8B参数MDM)已能在多个基准测试中媲美LLaMA3 8B(自回归模型),证明了MDMs的规模化潜力。
但问题也随之而来:现有MDMs几乎都采用密集Transformer架构,即推理时需激活全部参数。例如,要达到LLaMA3 8B的性能,LLaDA-8B需要激活全部8B参数;7B参数的Dream-v0模型同样需要全量激活。这导致MDMs在追求高性能时,不可避免地陷入“参数膨胀”的怪圈,难以在端侧或资源受限场景部署。
2. MoE架构:让参数“按需激活”的关键
混合专家(MoE)架构的出现,为解决“参数规模与效率”的矛盾提供了思路。其核心设计是:
用多个“专家网络” 替代传统Transformer中的密集前馈层,每个专家专注处理某类任务或特征; 通过路由器(Router) 为每个token选择Top-k个最相关的专家,仅激活这些专家的参数,其余参数处于“休眠”状态。
这种“稀疏激活”机制已在自回归模型中验证了有效性——例如Mixtral-8x7B(总参数56B,激活参数约12B)能媲美70B参数的密集模型。但关键问题在于:MoE架构能否适配扩散语言模型?
此前尚无研究尝试“从头预训练”融合MoE的MDMs,主要顾虑在于:
MDMs的迭代生成过程对参数的“动态调用”要求更高,路由器能否稳定选择合适的专家? MDMs的训练目标(最小化掩码token的预测损失)与MoE的负载平衡损失如何兼容,避免出现“部分专家被过度调用、部分专家闲置”的问题?
LLaDA-MoE的核心贡献,正是首次系统性地解决了这些问题,将MoE的高效性与MDMs的生成能力结合起来。
LLaDA-MoE技术解析:从架构设计到训练流程
要实现“7B总参数、1.4B激活参数”的高性能,LLaDA-MoE在架构、训练目标、训练流程上都做了精细化设计。

1. 架构设计:为扩散模型量身定制的MoE模块
LLaDA-MoE的基础架构基于Transformer,但在关键组件和MoE集成上做了针对性优化,具体参数如下表所示:
关键:MoE路由与负载平衡
MoE架构的核心是“路由器如何选择专家”,以及“如何避免专家负载失衡”。LLaDA-MoE采用了两步优化:
第一步:Top-k gated路由机制
对于每个token的隐藏状态,路由器(Router)会先输出每个专家的logits,经过Softmax后得到选择概率,最终选取概率最高的2个专家(Top-2)。token的最终输出由这2个专家的输出加权求和得到,公式如下:
其中是第个专家的前馈网络。这种设计确保每个token仅激活2/64=3.125%的专家参数,大幅降低推理计算量。
第二步:双辅助损失抑制负载失衡
若仅靠路由器自主选择,容易出现“热门专家被过度调用、冷门专家闲置”的问题,导致模型性能下降。LLaDA-MoE引入了两种辅助损失:
负载平衡损失():惩罚专家选择频率与平均概率的偏差,迫使路由器均匀调用专家:其中是专家总数(64),是专家被选择的频率,是专家的平均选择概率。 Z损失():抑制路由器输出logits的波动,避免某类token过度依赖特定专家:其中是路由器输出的logits,是token总数。
在训练中,团队设置的权重为0.01,的权重为0.001。从图4可以看到,在预训练前1T tokens的过程中,两种损失均快速下降并稳定在低水平,证明负载平衡机制有效。

2. 训练目标:适配MoE的扩散模型损失函数
LLaDA-MoE的训练目标基于MDMs的经典范式,但针对MoE架构和后续的监督微调(SFT)做了调整,分为“预训练损失”和“SFT损失”两类。
预训练损失:聚焦掩码token的预测
在预训练阶段,模型需要学习从部分掩码的序列()中恢复原始序列()。具体流程是:
对原始序列(长度,词汇表大小)采样噪声水平; 按概率将每个token替换为掩码token(M),得到部分掩码序列; 模型预测中被掩码的token,损失函数为被掩码token的负对数似然:其中是指示函数(被掩码时为1,否则为0),用于平衡不同噪声水平的贡献。
SFT损失:针对指令跟随优化
为了让模型具备指令跟随能力,团队在预训练后进行监督微调(SFT)。核心调整是:仅对“响应部分”应用掩码,保持“prompt部分”完全可见,确保模型能根据prompt生成正确响应。
对于prompt-响应对,SFT的损失函数为:
这种设计让模型专注于学习“如何根据prompt修复被掩码的响应”,更符合实际应用场景(如问答、代码生成)。
3. 训练流程:20T tokens的多阶段精细化训练
LLaDA-MoE的训练分为5个阶段,总数据量约20T tokens,每个阶段的目标和数据设计都各有侧重,确保模型从“基础语言理解”到“指令跟随”的能力逐步提升:

阶段1:预训练阶段1(10T tokens)
数据:大规模混合文本语料(涵盖通用文本、知识、数学、代码等); 目标:让模型掌握基础语言建模能力,学习通用的序列修复规律; 特殊处理:99%的训练步使用4k固定上下文长度,1%的步随机采样8~4096的可变长度,缓解“训练-推理上下文不匹配”问题(训练时固定4k,推理时上下文长度可变,易导致性能下降)。
阶段2:预训练阶段2(10T tokens)
数据:与阶段1相同的语料库,但重新采样时增加数学和代码的占比; 目标:强化模型在逻辑推理和代码生成上的能力——这两类任务是扩散模型的传统弱项,通过数据重加权针对性提升。
阶段3:退火阶段1(500B tokens)
初始化:加载预训练阶段2中“平均评估指标最优”的checkpoint; 数据:高质量筛选后的文本语料(去除低质量、重复内容); 目标:进一步优化模型的生成质量,减少冗余或错误输出。
阶段4:退火阶段2(500B tokens)
关键调整:
将RoPE基数从10,000提升至50,000——支持更长的上下文(从4k扩展到8k); 训练数据的上下文长度统一调整为8k;
阶段5:SFT阶段(未明确数据量,聚焦高质量问答对)
数据:精心整理的prompt-响应对(涵盖知识理解、代码生成、数学推理、智能体任务等); 特殊处理:限制每个样本的长度为4k——避免因8k上下文导致模型生成过多EOS(结束符)token,影响生成流畅性; 目标:让模型具备指令跟随能力,满足实际应用需求。
实验结果:1.4B激活参数干翻8B密集模型,媲美3B 自回归模型
LLaDA-MoE的性能验证覆盖了知识理解、推理、数学、代码生成、智能体与对齐五大类任务,对比对象包括:
扩散模型基线:LLaDA-8B(8B参数,密集)、Dream-v0-7B(7B参数,密集)、LLaDA-1.5(8B参数,密集); 自回归模型基线:Qwen2.5-3B-Instruct(3B参数,密集,当前主流轻量级自回归模型)。
所有实验均采用“半自回归采样”(序列分块并行预测,块长度64,生成长度1024),确保对比的公平性。
1. 基础模型(Base版):超越同规模扩散模型
LLaDA-MoE-7B-A1B-Base(未SFT的基础版)在通用任务上的表现如表1所示:

从数据可以看出:
参数效率优势:LLaDA-MoE仅用1B激活参数,平均得分(46.94)超过8B参数的LLaDA-8B(43.53),与7B参数的Dream-v0(46.66)基本持平; 任务优势:在代码生成(HumanEval 45.73 vs LLaDA-8B 33.50)和数学推理(GSM8K 66.41 vs LLaDA-8B 70.70,差距较小)上表现突出,证明数据重加权和MoE架构的有效性; 与自回归模型对比:虽平均得分略低于Qwen2.5-3B-Base(50.34),但考虑到激活参数更少(1B vs 3B),已展现出较强的竞争力。
2. 指令微调模型(Instruct版):媲美Qwen2.5-3B-Instruct
经过SFT后的LLaDA-MoE-7B-A1B-Instruct,在实际应用场景中的表现大幅提升,部分关键结果如表3所示:

主要亮点在于:
全面超越扩散模型基线:LLaDA-MoE-Instruct在所有任务上均领先LLaDA-8B-Instruct和Dream-v0-Instruct-7B,尤其是智能体任务(BFCL-Live 66.20 vs 53.03/50.40)和数学推理(GSM8K 82.41 vs 78.60/81.00),证明SFT有效提升了模型的实用能力; 与自回归模型旗鼓相当:其平均得分(53.12)与Qwen2.5-3B-Instruct(53.51)仅相差0.39,在MMLU-Pro(44.64 vs 44.13)等任务上甚至略有领先。考虑到LLaDA-MoE-Instruct的激活参数(1.4B)远少于Qwen2.5-3B-Instruct(3B),这种性能表现极具说服力。
3. 关键结论:MoE架构为扩散模型带来“效率革命”
从实验结果可以提炼出两个核心结论:
MoE适配性验证:稀疏MoE架构能完美融入扩散语言模型的训练目标,即使仅激活1.4B参数,仍能超越8B参数的密集扩散模型——打破了“扩散模型必须靠密集参数堆性能”的固有认知; 实用价值凸显:经过SFT的LLaDA-MoE已能满足实际应用需求,在知识、推理、代码等任务上媲美主流轻量级自回归模型,且推理成本更低,为扩散模型的工业化部署提供了可能。
总结
在大语言模型技术迭代速度越来越快的今天,LLaDA-MoE的价值不仅在于提出了一个高性能模型,更在于为扩散语言模型指明了“高效化”的发展路径:
技术突破:首次实现“从头预训练MoE扩散模型”,解决了MoE与扩散模型的适配难题,为领域提供了可复现的技术方案; 实用导向:以“低激活参数、高性能”为目标,直接响应工业界对“低成本部署大模型”的需求,具有明确的落地潜力; 开源共享:模型已开源,为研究者和开发者提供了宝贵的基础模型,有望推动扩散模型领域的进一步创新。
对于AI从业者而言,LLaDA-MoE的研究提醒我们:在追求模型性能的同时,参数效率和推理成本同样重要。而MoE架构与扩散模型的结合,或许只是“高效大模型”探索的开始——未来,还会有更多兼顾性能与效率的创新方案涌现。