首个原生MoE扩散语言模型！人大&蚂蚁LLaDA-MoE：语言模型未必需要自回归？

在大语言模型（LLM） 领域，自回归（AR） 架构长期占据主导地位，但以掩码扩散模型（MDM） 为代表的扩散语言模型（DLLM） 凭借独特的迭代生成机制，正成为极具潜力的替代范式。

然而，现有MDMs多依赖密集Transformer backbone，面临参数规模与推理效率难以平衡的困境——要提升性能往往需要堆砌参数，这无疑增加了部署成本。

最近，中国人民大学高瓴人工智能学院与蚂蚁集团的联合团队提出了LLaDA-MoE，一款融合稀疏混合专家（MoE）架构的扩散语言模型。它通过7B总参数、仅1.4B激活参数的设计，在20T tokens的大规模预训练支持下，不仅超越了8B参数的传统扩散模型，还能与3B参数的主流自回归模型掰手腕，为扩散语言模型的高效化发展开辟了新路径。

首个原生MoE扩散语言模型！人大&蚂蚁LLaDA-MoE：语言模型未必需要自回归？图1 — 图 1：基准测试结果。我们在知识、推理、数学、代码生成及智能体任务等关键任务上，将 LLaDA-MoE 与参数规模更大的掩码扩散模型（MDMs）以及 Qwen2.5-3B-Instruct 模型进行了性能对比。尽管 LLaDA-MoE 的激活参数更少，但其性能始终优于其他扩散语言模型，且达到了与 Qwen2.5-3B-Instruct 相近的水平。

论文链接：https://arxiv.org/pdf/2509.24389v1
开源链接：https://huggingface.co/collections/inclusionAI/llada-68c141bca386b06b599cfe45
点击下方卡片，关注“大模型之心Tech”公众号

为什么要做LLaDA-MoE？解决扩散模型的“效率痛点”

在深入LLaDA-MoE之前，我们需要先理解其诞生的技术背景——扩散语言模型的潜力与瓶颈。

1. 扩散语言模型：AR架构之外的“新选择”

不同于自回归模型从左到右的逐token生成方式，掩码扩散模型采用迭代修复机制：从完全掩码的序列（）开始，模型会反复预测被掩码的token并逐步解除掩码，直到生成完整序列（）。这种方式的优势在于：

并行性潜力：生成过程中可对多个掩码位置进行并行预测，理论上比自回归模型更高效；
生成可控性：通过调整噪声水平（），能更好地平衡生成文本的多样性与准确性；
性能竞争力：此前的LLaDA-8B（8B参数MDM）已能在多个基准测试中媲美LLaMA3 8B（自回归模型），证明了MDMs的规模化潜力。

但问题也随之而来：现有MDMs几乎都采用密集Transformer架构，即推理时需激活全部参数。例如，要达到LLaMA3 8B的性能，LLaDA-8B需要激活全部8B参数；7B参数的Dream-v0模型同样需要全量激活。这导致MDMs在追求高性能时，不可避免地陷入“参数膨胀”的怪圈，难以在端侧或资源受限场景部署。

2. MoE架构：让参数“按需激活”的关键

混合专家（MoE）架构的出现，为解决“参数规模与效率”的矛盾提供了思路。其核心设计是：

用多个“专家网络” 替代传统Transformer中的密集前馈层，每个专家专注处理某类任务或特征；
通过路由器（Router） 为每个token选择Top-k个最相关的专家，仅激活这些专家的参数，其余参数处于“休眠”状态。

这种“稀疏激活”机制已在自回归模型中验证了有效性——例如Mixtral-8x7B（总参数56B，激活参数约12B）能媲美70B参数的密集模型。但关键问题在于：MoE架构能否适配扩散语言模型？

此前尚无研究尝试“从头预训练”融合MoE的MDMs，主要顾虑在于：

MDMs的迭代生成过程对参数的“动态调用”要求更高，路由器能否稳定选择合适的专家？
MDMs的训练目标（最小化掩码token的预测损失）与MoE的负载平衡损失如何兼容，避免出现“部分专家被过度调用、部分专家闲置”的问题？

LLaDA-MoE的核心贡献，正是首次系统性地解决了这些问题，将MoE的高效性与MDMs的生成能力结合起来。

LLaDA-MoE技术解析：从架构设计到训练流程

要实现“7B总参数、1.4B激活参数”的高性能，LLaDA-MoE在架构、训练目标、训练流程上都做了精细化设计。

首个原生MoE扩散语言模型！人大&蚂蚁LLaDA-MoE：语言模型未必需要自回归？图2 — 图 2：生成流程与架构概述左侧：从完全掩码(t=1)到完全去掩码(t=0)的迭代生成流程。蓝色块代表固定的用户提示词 token，绿色块代表掩码 token。模型会反复预测并重新掩码 token，直至生成过程完成。右侧：每个 token 由路由器选择 Top-2（前 2 个）专家的 MoE（混合专家）架构。直方图展示了专家的路由分布情况，输出结果为所选专家输出的加权组合，从而实现高效的稀疏激活。

1. 架构设计：为扩散模型量身定制的MoE模块

LLaDA-MoE的基础架构基于Transformer，但在关键组件和MoE集成上做了针对性优化，具体参数如下表所示：

架构组件（Architecture Component）	参数值（Parameter Value）
层数（Layers）	16
隐藏层维度（Hidden Dimension）	2048
注意力头数（Attention Heads）	16
专家总数（Total Experts）	64
激活专家数（Activated Experts）	8
专家维度（Expert Dimension）	1024
旋转位置嵌入基数（RoPE Base）	50,000
激活参数量（Active Parameters）	1.4B
非嵌入层参数量（Non-embedding Parameters）	7B

关键：MoE路由与负载平衡

MoE架构的核心是“路由器如何选择专家”，以及“如何避免专家负载失衡”。LLaDA-MoE采用了两步优化：

第一步：Top-k gated路由机制
对于每个token的隐藏状态，路由器（Router）会先输出每个专家的logits，经过Softmax后得到选择概率，最终选取概率最高的2个专家（Top-2）。token的最终输出由这2个专家的输出加权求和得到，公式如下：

其中是第个专家的前馈网络。这种设计确保每个token仅激活2/64=3.125%的专家参数，大幅降低推理计算量。

第二步：双辅助损失抑制负载失衡
若仅靠路由器自主选择，容易出现“热门专家被过度调用、冷门专家闲置”的问题，导致模型性能下降。LLaDA-MoE引入了两种辅助损失：

负载平衡损失（）：惩罚专家选择频率与平均概率的偏差，迫使路由器均匀调用专家：
其中是专家总数（64），是专家被选择的频率，是专家的平均选择概率。
Z损失（）：抑制路由器输出logits的波动，避免某类token过度依赖特定专家：
其中是路由器输出的logits，是token总数。

在训练中，团队设置的权重为0.01，的权重为0.001。从图4可以看到，在预训练前1T tokens的过程中，两种损失均快速下降并稳定在低水平，证明负载平衡机制有效。

首个原生MoE扩散语言模型！人大&蚂蚁LLaDA-MoE：语言模型未必需要自回归？图3 — 图 4：训练 token 数量对应的辅助损失训练动态。该图展示了 LLaDA-MoE 在前 1 万亿个（1T）token 上的预训练结果。左侧图表为 Z 损失（Z-Loss）的变化趋势，右侧图表为负载平衡损失（Load-Balancing Loss）的变化趋势。

2. 训练目标：适配MoE的扩散模型损失函数

LLaDA-MoE的训练目标基于MDMs的经典范式，但针对MoE架构和后续的监督微调（SFT）做了调整，分为“预训练损失”和“SFT损失”两类。

预训练损失：聚焦掩码token的预测

在预训练阶段，模型需要学习从部分掩码的序列（）中恢复原始序列（）。具体流程是：

对原始序列（长度，词汇表大小）采样噪声水平；
按概率将每个token替换为掩码token（M），得到部分掩码序列；
模型预测中被掩码的token，损失函数为被掩码token的负对数似然：
其中是指示函数（被掩码时为1，否则为0），用于平衡不同噪声水平的贡献。

SFT损失：针对指令跟随优化

为了让模型具备指令跟随能力，团队在预训练后进行监督微调（SFT）。核心调整是：仅对“响应部分”应用掩码，保持“prompt部分”完全可见，确保模型能根据prompt生成正确响应。

对于prompt-响应对，SFT的损失函数为：

这种设计让模型专注于学习“如何根据prompt修复被掩码的响应”，更符合实际应用场景（如问答、代码生成）。

3. 训练流程：20T tokens的多阶段精细化训练

LLaDA-MoE的训练分为5个阶段，总数据量约20T tokens，每个阶段的目标和数据设计都各有侧重，确保模型从“基础语言理解”到“指令跟随”的能力逐步提升：

首个原生MoE扩散语言模型！人大&蚂蚁LLaDA-MoE：语言模型未必需要自回归？图4 — 图 3：训练流程。LLaDA-MoE 的训练依次经过以下阶段：预训练阶段 1（训练数据量为 10 万亿个 token）、预训练阶段 2（训练数据量为 10 万亿个 token）、退火阶段 1（训练数据量为 5000 亿个 token）、退火阶段 2（训练数据量为 5000 亿个 token，上下文长度设为 8192，即 8k），最后基于精心筛选的提示词 - 答案对进行监督微调（SFT）。

阶段1：预训练阶段1（10T tokens）

数据：大规模混合文本语料（涵盖通用文本、知识、数学、代码等）；
目标：让模型掌握基础语言建模能力，学习通用的序列修复规律；
特殊处理：99%的训练步使用4k固定上下文长度，1%的步随机采样8~4096的可变长度，缓解“训练-推理上下文不匹配”问题（训练时固定4k，推理时上下文长度可变，易导致性能下降）。

阶段2：预训练阶段2（10T tokens）

数据：与阶段1相同的语料库，但重新采样时增加数学和代码的占比；
目标：强化模型在逻辑推理和代码生成上的能力——这两类任务是扩散模型的传统弱项，通过数据重加权针对性提升。

阶段3：退火阶段1（500B tokens）

初始化：加载预训练阶段2中“平均评估指标最优”的checkpoint；
数据：高质量筛选后的文本语料（去除低质量、重复内容）；
目标：进一步优化模型的生成质量，减少冗余或错误输出。

阶段4：退火阶段2（500B tokens）

关键调整：

将RoPE基数从10,000提升至50,000——支持更长的上下文（从4k扩展到8k）；
训练数据的上下文长度统一调整为8k；

目标：让模型适应长序列生成场景（如长文档摘要、多轮对话）。

阶段5：SFT阶段（未明确数据量，聚焦高质量问答对）

数据：精心整理的prompt-响应对（涵盖知识理解、代码生成、数学推理、智能体任务等）；
特殊处理：限制每个样本的长度为4k——避免因8k上下文导致模型生成过多EOS（结束符）token，影响生成流畅性；
目标：让模型具备指令跟随能力，满足实际应用需求。

实验结果：1.4B激活参数干翻8B密集模型，媲美3B 自回归模型

LLaDA-MoE的性能验证覆盖了知识理解、推理、数学、代码生成、智能体与对齐五大类任务，对比对象包括：

扩散模型基线：LLaDA-8B（8B参数，密集）、Dream-v0-7B（7B参数，密集）、LLaDA-1.5（8B参数，密集）；
自回归模型基线：Qwen2.5-3B-Instruct（3B参数，密集，当前主流轻量级自回归模型）。

所有实验均采用“半自回归采样”（序列分块并行预测，块长度64，生成长度1024），确保对比的公平性。

1. 基础模型（Base版）：超越同规模扩散模型

LLaDA-MoE-7B-A1B-Base（未SFT的基础版）在通用任务上的表现如表1所示：

首个原生MoE扩散语言模型！人大&蚂蚁LLaDA-MoE：语言模型未必需要自回归？图5 — 表 1：LLaDA-MoE-7B-A1B-Base 与其他掩码扩散模型（MDMs）及自回归模型（AR）基准模型的对比。

从数据可以看出：

参数效率优势：LLaDA-MoE仅用1B激活参数，平均得分（46.94）超过8B参数的LLaDA-8B（43.53），与7B参数的Dream-v0（46.66）基本持平；
任务优势：在代码生成（HumanEval 45.73 vs LLaDA-8B 33.50）和数学推理（GSM8K 66.41 vs LLaDA-8B 70.70，差距较小）上表现突出，证明数据重加权和MoE架构的有效性；
与自回归模型对比：虽平均得分略低于Qwen2.5-3B-Base（50.34），但考虑到激活参数更少（1B vs 3B），已展现出较强的竞争力。

2. 指令微调模型（Instruct版）：媲美Qwen2.5-3B-Instruct

经过SFT后的LLaDA-MoE-7B-A1B-Instruct，在实际应用场景中的表现大幅提升，部分关键结果如表3所示：

首个原生MoE扩散语言模型！人大&蚂蚁LLaDA-MoE：语言模型未必需要自回归？图6 — 表 3：LLaDA-MoE-7B-A1B-Instruct 与其他掩码扩散模型（MDMs）及自回归模型（AR）基准模型的对比

主要亮点在于：

全面超越扩散模型基线：LLaDA-MoE-Instruct在所有任务上均领先LLaDA-8B-Instruct和Dream-v0-Instruct-7B，尤其是智能体任务（BFCL-Live 66.20 vs 53.03/50.40）和数学推理（GSM8K 82.41 vs 78.60/81.00），证明SFT有效提升了模型的实用能力；
与自回归模型旗鼓相当：其平均得分（53.12）与Qwen2.5-3B-Instruct（53.51）仅相差0.39，在MMLU-Pro（44.64 vs 44.13）等任务上甚至略有领先。考虑到LLaDA-MoE-Instruct的激活参数（1.4B）远少于Qwen2.5-3B-Instruct（3B），这种性能表现极具说服力。

3. 关键结论：MoE架构为扩散模型带来“效率革命”

从实验结果可以提炼出两个核心结论：

MoE适配性验证：稀疏MoE架构能完美融入扩散语言模型的训练目标，即使仅激活1.4B参数，仍能超越8B参数的密集扩散模型——打破了“扩散模型必须靠密集参数堆性能”的固有认知；
实用价值凸显：经过SFT的LLaDA-MoE已能满足实际应用需求，在知识、推理、代码等任务上媲美主流轻量级自回归模型，且推理成本更低，为扩散模型的工业化部署提供了可能。

总结

在大语言模型技术迭代速度越来越快的今天，LLaDA-MoE的价值不仅在于提出了一个高性能模型，更在于为扩散语言模型指明了“高效化”的发展路径：

技术突破：首次实现“从头预训练MoE扩散模型”，解决了MoE与扩散模型的适配难题，为领域提供了可复现的技术方案；
实用导向：以“低激活参数、高性能”为目标，直接响应工业界对“低成本部署大模型”的需求，具有明确的落地潜力；
开源共享：模型已开源，为研究者和开发者提供了宝贵的基础模型，有望推动扩散模型领域的进一步创新。

对于AI从业者而言，LLaDA-MoE的研究提醒我们：在追求模型性能的同时，参数效率和推理成本同样重要。而MoE架构与扩散模型的结合，或许只是“高效大模型”探索的开始——未来，还会有更多兼顾性能与效率的创新方案涌现。

首个原生MoE扩散语言模型！人大&蚂蚁LLaDA-MoE：语言模型未必需要自回归？图7