首个原生MoE扩散语言模型!人大&蚂蚁LLaDA-MoE:语言模型未必需要自回归?

大模型之心Tech 2025-10-13 12:00

大语言模型(LLM) 领域,自回归(AR) 架构长期占据主导地位,但以掩码扩散模型(MDM) 为代表的扩散语言模型(DLLM) 凭借独特的迭代生成机制,正成为极具潜力的替代范式。

然而,现有MDMs多依赖密集Transformer backbone,面临参数规模与推理效率难以平衡的困境——要提升性能往往需要堆砌参数,这无疑增加了部署成本。

最近,中国人民大学高瓴人工智能学院与蚂蚁集团的联合团队提出了LLaDA-MoE,一款融合稀疏混合专家(MoE)架构的扩散语言模型。它通过7B总参数、仅1.4B激活参数的设计,在20T tokens的大规模预训练支持下,不仅超越了8B参数的传统扩散模型,还能与3B参数的主流自回归模型掰手腕,为扩散语言模型的高效化发展开辟了新路径。

首个原生MoE扩散语言模型!人大&蚂蚁LLaDA-MoE:语言模型未必需要自回归?图1
图 1:基准测试结果。我们在知识、推理、数学、代码生成及智能体任务等关键任务上,将 LLaDA-MoE 与参数规模更大的掩码扩散模型(MDMs)以及 Qwen2.5-3B-Instruct 模型进行了性能对比。尽管 LLaDA-MoE 的激活参数更少,但其性能始终优于其他扩散语言模型,且达到了与 Qwen2.5-3B-Instruct 相近的水平。
  • 论文链接:https://arxiv.org/pdf/2509.24389v1

  • 开源链接:https://huggingface.co/collections/inclusionAI/llada-68c141bca386b06b599cfe45

    点击下方卡片,关注“大模型之心Tech”公众号


为什么要做LLaDA-MoE?解决扩散模型的“效率痛点”

在深入LLaDA-MoE之前,我们需要先理解其诞生的技术背景——扩散语言模型的潜力与瓶颈。

1. 扩散语言模型:AR架构之外的“新选择”

不同于自回归模型从左到右的逐token生成方式,掩码扩散模型采用迭代修复机制:从完全掩码的序列()开始,模型会反复预测被掩码的token并逐步解除掩码,直到生成完整序列()。这种方式的优势在于:

  • 并行性潜力:生成过程中可对多个掩码位置进行并行预测,理论上比自回归模型更高效;
  • 生成可控性:通过调整噪声水平(),能更好地平衡生成文本的多样性与准确性;
  • 性能竞争力:此前的LLaDA-8B(8B参数MDM)已能在多个基准测试中媲美LLaMA3 8B(自回归模型),证明了MDMs的规模化潜力。

但问题也随之而来:现有MDMs几乎都采用密集Transformer架构,即推理时需激活全部参数。例如,要达到LLaMA3 8B的性能,LLaDA-8B需要激活全部8B参数;7B参数的Dream-v0模型同样需要全量激活。这导致MDMs在追求高性能时,不可避免地陷入“参数膨胀”的怪圈,难以在端侧或资源受限场景部署。

2. MoE架构:让参数“按需激活”的关键

混合专家(MoE)架构的出现,为解决“参数规模与效率”的矛盾提供了思路。其核心设计是:

  • 多个“专家网络” 替代传统Transformer中的密集前馈层,每个专家专注处理某类任务或特征;
  • 通过路由器(Router) 为每个token选择Top-k个最相关的专家,仅激活这些专家的参数,其余参数处于“休眠”状态。

这种“稀疏激活”机制已在自回归模型中验证了有效性——例如Mixtral-8x7B(总参数56B,激活参数约12B)能媲美70B参数的密集模型。但关键问题在于:MoE架构能否适配扩散语言模型?

此前尚无研究尝试“从头预训练”融合MoE的MDMs,主要顾虑在于:

  • MDMs的迭代生成过程对参数的“动态调用”要求更高,路由器能否稳定选择合适的专家?
  • MDMs的训练目标(最小化掩码token的预测损失)与MoE的负载平衡损失如何兼容,避免出现“部分专家被过度调用、部分专家闲置”的问题?

LLaDA-MoE的核心贡献,正是首次系统性地解决了这些问题,将MoE的高效性与MDMs的生成能力结合起来。

LLaDA-MoE技术解析:从架构设计到训练流程

要实现“7B总参数、1.4B激活参数”的高性能,LLaDA-MoE在架构、训练目标、训练流程上都做了精细化设计。

首个原生MoE扩散语言模型!人大&蚂蚁LLaDA-MoE:语言模型未必需要自回归?图2
图 2:生成流程与架构概述左侧:从完全掩码(t=1)到完全去掩码(t=0)的迭代生成流程。蓝色块代表固定的用户提示词 token,绿色块代表掩码 token。模型会反复预测并重新掩码 token,直至生成过程完成。右侧:每个 token 由路由器选择 Top-2(前 2 个)专家的 MoE(混合专家)架构。直方图展示了专家的路由分布情况,输出结果为所选专家输出的加权组合,从而实现高效的稀疏激活。

1. 架构设计:为扩散模型量身定制的MoE模块

LLaDA-MoE的基础架构基于Transformer,但在关键组件和MoE集成上做了针对性优化,具体参数如下表所示:

架构组件(Architecture Component)
参数值(Parameter Value)
层数(Layers)
16
隐藏层维度(Hidden Dimension)
2048
注意力头数(Attention Heads)
16
专家总数(Total Experts)
64
激活专家数(Activated Experts)
8
专家维度(Expert Dimension)
1024
旋转位置嵌入基数(RoPE Base)
50,000
激活参数量(Active Parameters)
1.4B
非嵌入层参数量(Non-embedding Parameters)
7B

关键:MoE路由与负载平衡

MoE架构的核心是“路由器如何选择专家”,以及“如何避免专家负载失衡”。LLaDA-MoE采用了两步优化:

第一步:Top-k gated路由机制
对于每个token的隐藏状态,路由器(Router)会先输出每个专家的logits,经过Softmax后得到选择概率,最终选取概率最高的2个专家(Top-2)。token的最终输出由这2个专家的输出加权求和得到,公式如下:

其中是第个专家的前馈网络。这种设计确保每个token仅激活2/64=3.125%的专家参数,大幅降低推理计算量。

第二步:双辅助损失抑制负载失衡
若仅靠路由器自主选择,容易出现“热门专家被过度调用、冷门专家闲置”的问题,导致模型性能下降。LLaDA-MoE引入了两种辅助损失:

  1. 负载平衡损失(:惩罚专家选择频率与平均概率的偏差,迫使路由器均匀调用专家:
    其中是专家总数(64),是专家被选择的频率,是专家的平均选择概率。
  2. Z损失(:抑制路由器输出logits的波动,避免某类token过度依赖特定专家:
    其中是路由器输出的logits,是token总数。

在训练中,团队设置的权重为0.01,的权重为0.001。从图4可以看到,在预训练前1T tokens的过程中,两种损失均快速下降并稳定在低水平,证明负载平衡机制有效。

首个原生MoE扩散语言模型!人大&蚂蚁LLaDA-MoE:语言模型未必需要自回归?图3
图 4:训练 token 数量对应的辅助损失训练动态。该图展示了 LLaDA-MoE 在前 1 万亿个(1T)token 上的预训练结果。左侧图表为 Z 损失(Z-Loss)的变化趋势,右侧图表为负载平衡损失(Load-Balancing Loss)的变化趋势。

2. 训练目标:适配MoE的扩散模型损失函数

LLaDA-MoE的训练目标基于MDMs的经典范式,但针对MoE架构和后续的监督微调(SFT)做了调整,分为“预训练损失”和“SFT损失”两类。

预训练损失:聚焦掩码token的预测

在预训练阶段,模型需要学习从部分掩码的序列()中恢复原始序列()。具体流程是:

  1. 对原始序列(长度,词汇表大小)采样噪声水平
  2. 按概率将每个token替换为掩码token(M),得到部分掩码序列
  3. 模型预测中被掩码的token,损失函数为被掩码token的负对数似然:
    其中是指示函数(被掩码时为1,否则为0),用于平衡不同噪声水平的贡献。

SFT损失:针对指令跟随优化

为了让模型具备指令跟随能力,团队在预训练后进行监督微调(SFT)。核心调整是:仅对“响应部分”应用掩码,保持“prompt部分”完全可见,确保模型能根据prompt生成正确响应。

对于prompt-响应对,SFT的损失函数为:

这种设计让模型专注于学习“如何根据prompt修复被掩码的响应”,更符合实际应用场景(如问答、代码生成)。

3. 训练流程:20T tokens的多阶段精细化训练

LLaDA-MoE的训练分为5个阶段,总数据量约20T tokens,每个阶段的目标和数据设计都各有侧重,确保模型从“基础语言理解”到“指令跟随”的能力逐步提升:

首个原生MoE扩散语言模型!人大&蚂蚁LLaDA-MoE:语言模型未必需要自回归?图4
图 3:训练流程。LLaDA-MoE 的训练依次经过以下阶段:预训练阶段 1(训练数据量为 10 万亿个 token)、预训练阶段 2(训练数据量为 10 万亿个 token)、退火阶段 1(训练数据量为 5000 亿个 token)、退火阶段 2(训练数据量为 5000 亿个 token,上下文长度设为 8192,即 8k),最后基于精心筛选的提示词 - 答案对进行监督微调(SFT)。

阶段1:预训练阶段1(10T tokens)

  • 数据:大规模混合文本语料(涵盖通用文本、知识、数学、代码等);
  • 目标:让模型掌握基础语言建模能力,学习通用的序列修复规律;
  • 特殊处理:99%的训练步使用4k固定上下文长度,1%的步随机采样8~4096的可变长度,缓解“训练-推理上下文不匹配”问题(训练时固定4k,推理时上下文长度可变,易导致性能下降)。

阶段2:预训练阶段2(10T tokens)

  • 数据:与阶段1相同的语料库,但重新采样时增加数学和代码的占比
  • 目标:强化模型在逻辑推理和代码生成上的能力——这两类任务是扩散模型的传统弱项,通过数据重加权针对性提升。

阶段3:退火阶段1(500B tokens)

  • 初始化:加载预训练阶段2中“平均评估指标最优”的checkpoint;
  • 数据:高质量筛选后的文本语料(去除低质量、重复内容);
  • 目标:进一步优化模型的生成质量,减少冗余或错误输出。

阶段4:退火阶段2(500B tokens)

  • 关键调整
  1. 将RoPE基数从10,000提升至50,000——支持更长的上下文(从4k扩展到8k);
  2. 训练数据的上下文长度统一调整为8k;
  • 目标:让模型适应长序列生成场景(如长文档摘要、多轮对话)。
  • 阶段5:SFT阶段(未明确数据量,聚焦高质量问答对)

    • 数据:精心整理的prompt-响应对(涵盖知识理解、代码生成、数学推理、智能体任务等);
    • 特殊处理:限制每个样本的长度为4k——避免因8k上下文导致模型生成过多EOS(结束符)token,影响生成流畅性;
    • 目标:让模型具备指令跟随能力,满足实际应用需求。

    实验结果:1.4B激活参数干翻8B密集模型,媲美3B 自回归模型

    LLaDA-MoE的性能验证覆盖了知识理解、推理、数学、代码生成、智能体与对齐五大类任务,对比对象包括:

    • 扩散模型基线:LLaDA-8B(8B参数,密集)、Dream-v0-7B(7B参数,密集)、LLaDA-1.5(8B参数,密集);
    • 自回归模型基线:Qwen2.5-3B-Instruct(3B参数,密集,当前主流轻量级自回归模型)。

    所有实验均采用“半自回归采样”(序列分块并行预测,块长度64,生成长度1024),确保对比的公平性。

    1. 基础模型(Base版):超越同规模扩散模型

    LLaDA-MoE-7B-A1B-Base(未SFT的基础版)在通用任务上的表现如表1所示:

    首个原生MoE扩散语言模型!人大&蚂蚁LLaDA-MoE:语言模型未必需要自回归?图5
    表 1:LLaDA-MoE-7B-A1B-Base 与其他掩码扩散模型(MDMs)及自回归模型(AR)基准模型的对比。

    从数据可以看出:

    • 参数效率优势:LLaDA-MoE仅用1B激活参数,平均得分(46.94)超过8B参数的LLaDA-8B(43.53),与7B参数的Dream-v0(46.66)基本持平;
    • 任务优势:在代码生成(HumanEval 45.73 vs LLaDA-8B 33.50)和数学推理(GSM8K 66.41 vs LLaDA-8B 70.70,差距较小)上表现突出,证明数据重加权和MoE架构的有效性;
    • 与自回归模型对比:虽平均得分略低于Qwen2.5-3B-Base(50.34),但考虑到激活参数更少(1B vs 3B),已展现出较强的竞争力。

    2. 指令微调模型(Instruct版):媲美Qwen2.5-3B-Instruct

    经过SFT后的LLaDA-MoE-7B-A1B-Instruct,在实际应用场景中的表现大幅提升,部分关键结果如表3所示:

    首个原生MoE扩散语言模型!人大&蚂蚁LLaDA-MoE:语言模型未必需要自回归?图6
    表 3:LLaDA-MoE-7B-A1B-Instruct 与其他掩码扩散模型(MDMs)及自回归模型(AR)基准模型的对比

    主要亮点在于:

    • 全面超越扩散模型基线:LLaDA-MoE-Instruct在所有任务上均领先LLaDA-8B-Instruct和Dream-v0-Instruct-7B,尤其是智能体任务(BFCL-Live 66.20 vs 53.03/50.40)和数学推理(GSM8K 82.41 vs 78.60/81.00),证明SFT有效提升了模型的实用能力;
    • 与自回归模型旗鼓相当:其平均得分(53.12)与Qwen2.5-3B-Instruct(53.51)仅相差0.39,在MMLU-Pro(44.64 vs 44.13)等任务上甚至略有领先。考虑到LLaDA-MoE-Instruct的激活参数(1.4B)远少于Qwen2.5-3B-Instruct(3B),这种性能表现极具说服力。

    3. 关键结论:MoE架构为扩散模型带来“效率革命”

    从实验结果可以提炼出两个核心结论:

    1. MoE适配性验证:稀疏MoE架构能完美融入扩散语言模型的训练目标,即使仅激活1.4B参数,仍能超越8B参数的密集扩散模型——打破了“扩散模型必须靠密集参数堆性能”的固有认知;
    2. 实用价值凸显:经过SFT的LLaDA-MoE已能满足实际应用需求,在知识、推理、代码等任务上媲美主流轻量级自回归模型,且推理成本更低,为扩散模型的工业化部署提供了可能。

    总结

    在大语言模型技术迭代速度越来越快的今天,LLaDA-MoE的价值不仅在于提出了一个高性能模型,更在于为扩散语言模型指明了“高效化”的发展路径:

    • 技术突破:首次实现“从头预训练MoE扩散模型”,解决了MoE与扩散模型的适配难题,为领域提供了可复现的技术方案;
    • 实用导向:以“低激活参数、高性能”为目标,直接响应工业界对“低成本部署大模型”的需求,具有明确的落地潜力;
    • 开源共享:模型已开源,为研究者和开发者提供了宝贵的基础模型,有望推动扩散模型领域的进一步创新。

    对于AI从业者而言,LLaDA-MoE的研究提醒我们:在追求模型性能的同时,参数效率和推理成本同样重要。而MoE架构与扩散模型的结合,或许只是“高效大模型”探索的开始——未来,还会有更多兼顾性能与效率的创新方案涌现。


    首个原生MoE扩散语言模型!人大&蚂蚁LLaDA-MoE:语言模型未必需要自回归?图7

    声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
    Copyright © 2025 成都区角科技有限公司
    蜀ICP备2025143415号-1
      
    川公网安备51015602001305号