
本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬是中国人民大学高瓴人工智能学院的博士生(蚂蚁集团实习生),导师为李崇轩副教授。
近年来,多模态大语言模型(MLLMs)在理解和生成任务上取得了长足进步,但目前的主流范式几乎全被自回归(Autoregressive,AR)模型所主导。尽管扩散模型(Diffusion Models)在图像生成领域大放异彩,且在纯文本和多模态理解任务(如此前的 LLaDA 和 LLaDA-V)中展现出比肩甚至超越 AR 模型的潜力,但如何用一个统一的扩散模型同时搞定「多模态理解」与「视觉生成」,一直是个悬而未决的难题。
直接将离散的文本扩散和连续的图像扩散放入同一个模型中进行联合训练,往往会因为状态空间和扩散过程的异构性,导致优化冲突和性能下降。此外,现有的全能扩散模型通常只能生成固定长度的文本,极大地限制了其在开放式对话中的应用。
为了解决这些问题,人大与蚂蚁联合团队正式推出了 LLaDA-o——一个高效且支持长度自适应的全能扩散模型(Omni Diffusion Model)。LLaDA-o 使用了 Mixture of Diffusion (MoD) 框架,在多模态理解和文生图任务上均实现了 SOTA 性能,向多模态扩散模型的「大一统」迈出了关键一步。

论文链接:https://arxiv.org/pdf/2603.01068
代码仓库: https://github.com/ML-GSAI/LLaDA-o
团队预计近期将开源训练、推理代码以及 LLaDA-o 的模型权重。
性能亮点:
理解与生成双管齐下,
推理速度飙升 5.9 倍
大规模的实验评估揭示了 LLaDA-o 的全能特性:
1. 多模态理解:扩散架构中的 SOTA
在 10 个主流多模态理解基准测试中,LLaDA-o 展现了优秀的能力。相较于现有的扩散类全能模型(如 LaViDa-O、Lumina-DiMOO),LLaDA-o 在数学推理(如 MathVista 取得 66.1 分)和图表 / 文档理解(如 ChartQA 取得 87.9 分)等复杂任务上优势显著,稳居扩散类 MLLM 的 SOTA 位置。

2. 文本到图像生成:细节拉满,斩获 DPG-Bench 最高分
在考验细粒度组合生成能力的 GenEval 和考验复杂长提示词还原度的 DPG-Bench 上,LLaDA-o 的表现同样亮眼。特别是在 DPG-Bench 上,LLaDA-o 拿下了 87.04 的 SOTA 高分,全面超越了此前强大的生成专有模型(如 SD3-Medium)和统一模型(如 Show-o2 和 Lumina-DiMOO)。

LLaDA-o 能够精准遵循复杂指令,生成的图像细节丰富,在与现有全能扩散模型的对比中优势明显。
3. 推理效率与自适应长度:又快又灵活
多模态模型的推理效率一直是落地的关键。得益于全新的注意力机制设计,LLaDA-o 在保持高准确率的同时,推理速度比前代 LLaDA-V 提升了整整 5.9 倍。此外,LLaDA-o 摆脱了固定生成长度的限制,面对简单的任务能迅速终止,面对复杂的任务则能自动延长输出,且不会产生冗余的「废话」。

核心方法:
Mixture of Diffusion (MoD) 框架
LLaDA-o 的成功,归功于其在架构设计和训练策略上的三项核心创新:
1. 混合扩散框架(Mixture of Diffusion)
强行把离散文本扩散和连续图像扩散揉在一起训练行不通,LLaDA-o 选择「因材施教」。MoD 框架配置了两个「扩散专家」:
理解专家(Understanding Expert):采用离散的掩码扩散(Masked Diffusion)机制,负责处理文本和视觉编码器提取的 token。
生成专家(Generation Expert):采用连续扩散机制,负责处理视觉潜在 token(Visual Latent Tokens)。
这两个专家解耦了不同模态的优化冲突,但同时共享同一个注意力主干网络,确保了跨模态信息的深度交互。

2. 模态内双向注意力(Intra-Modality Bidirectional Attention)
为了解决全局注意力在推理时重复计算的问题,团队设计了一种轻量且高效的注意力机制。将输入序列划分为不同的模态块,在块内使用全连接注意力,在块间强制执行因果注意力。这样一来,作为前置条件的图像和提示词(Prompt)就可以一次性计算并复用 KV Cache,极大地避免了冗余计算。

3. 自适应长度增强(Adaptive Length Augmentation)
为了让掩码扩散模型学会「长话短说」和「长篇大论」,研究团队引入了一种纯数据驱动的训练策略。在训练时,对目标回复进行随机的「延长(添加 EOS token)」或「截断」操作。这种方法无需修改任何底层架构,就让模型学会在推理时根据上下文动态决定输出长度,解决了变长文本生成的痛点。
总结与展望
LLaDA-o 优雅地将离散的语言理解与连续的视觉生成统一在了 Mixture of Diffusion 框架下,交出了一份多模态全能扩散模型的高分答卷。这项工作不仅证明了扩散模型完全有能力在多模态「理解 + 生成」的全能赛道上与自回归模型正面硬刚,更为未来非自回归架构的发展开辟了极具潜力的新路径。
随着底层大语言扩散模型的持续进化,我们有理由相信,基于扩散架构的统一大模型将在未来的通用人工智能版图中占据举足轻重的地位。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com