统一离散与连续扩散!人大 & 蚂蚁提出 LLaDA-o,高效达成多模态理解与生成

机器之心 2026-03-14 12:02
统一离散与连续扩散!人大 & 蚂蚁提出 LLaDA-o,高效达成多模态理解与生成图1


本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬是中国人民大学高瓴人工智能学院的博士生(蚂蚁集团实习生),导师为李崇轩副教授。


近年来,多模态大语言模型(MLLMs)在理解和生成任务上取得了长足进步,但目前的主流范式几乎全被自回归(Autoregressive,AR)模型所主导。尽管扩散模型(Diffusion Models)在图像生成领域大放异彩,且在纯文本和多模态理解任务(如此前的 LLaDA 和 LLaDA-V)中展现出比肩甚至超越 AR 模型的潜力,但如何用一个统一的扩散模型同时搞定「多模态理解」与「视觉生成」,一直是个悬而未决的难题。


直接将离散的文本扩散和连续的图像扩散放入同一个模型中进行联合训练,往往会因为状态空间和扩散过程的异构性,导致优化冲突和性能下降。此外,现有的全能扩散模型通常只能生成固定长度的文本,极大地限制了其在开放式对话中的应用。


为了解决这些问题,人大与蚂蚁联合团队正式推出了 LLaDA-o——一个高效且支持长度自适应的全能扩散模型(Omni Diffusion Model)。LLaDA-o 使用了 Mixture of Diffusion (MoD) 框架,在多模态理解和文生图任务上均实现了 SOTA 性能,向多模态扩散模型的「大一统」迈出了关键一步。


统一离散与连续扩散!人大 & 蚂蚁提出 LLaDA-o,高效达成多模态理解与生成图2



团队预计近期将开源训练、推理代码以及 LLaDA-o 的模型权重。


性能亮点:

理解与生成双管齐下,

推理速度飙升 5.9 倍


大规模的实验评估揭示了 LLaDA-o 的全能特性:


1. 多模态理解:扩散架构中的 SOTA


在 10 个主流多模态理解基准测试中,LLaDA-o 展现了优秀的能力。相较于现有的扩散类全能模型(如 LaViDa-O、Lumina-DiMOO),LLaDA-o 在数学推理(如 MathVista 取得 66.1 分)和图表 / 文档理解(如 ChartQA 取得 87.9 分)等复杂任务上优势显著,稳居扩散类 MLLM 的 SOTA 位置。


统一离散与连续扩散!人大 & 蚂蚁提出 LLaDA-o,高效达成多模态理解与生成图3


2. 文本到图像生成:细节拉满,斩获 DPG-Bench 最高分


在考验细粒度组合生成能力的 GenEval 和考验复杂长提示词还原度的 DPG-Bench 上,LLaDA-o 的表现同样亮眼。特别是在 DPG-Bench 上,LLaDA-o 拿下了 87.04 的 SOTA 高分,全面超越了此前强大的生成专有模型(如 SD3-Medium)和统一模型(如 Show-o2 和 Lumina-DiMOO)。


统一离散与连续扩散!人大 & 蚂蚁提出 LLaDA-o,高效达成多模态理解与生成图4

LLaDA-o 能够精准遵循复杂指令,生成的图像细节丰富,在与现有全能扩散模型的对比中优势明显。


3. 推理效率与自适应长度:又快又灵活


多模态模型的推理效率一直是落地的关键。得益于全新的注意力机制设计,LLaDA-o 在保持高准确率的同时,推理速度比前代 LLaDA-V 提升了整整 5.9 倍。此外,LLaDA-o 摆脱了固定生成长度的限制,面对简单的任务能迅速终止,面对复杂的任务则能自动延长输出,且不会产生冗余的「废话」。


统一离散与连续扩散!人大 & 蚂蚁提出 LLaDA-o,高效达成多模态理解与生成图5


核心方法:

Mixture of Diffusion (MoD) 框架


LLaDA-o 的成功,归功于其在架构设计和训练策略上的三项核心创新:


1. 混合扩散框架(Mixture of Diffusion)


强行把离散文本扩散和连续图像扩散揉在一起训练行不通,LLaDA-o 选择「因材施教」。MoD 框架配置了两个「扩散专家」:



这两个专家解耦了不同模态的优化冲突,但同时共享同一个注意力主干网络,确保了跨模态信息的深度交互。


统一离散与连续扩散!人大 & 蚂蚁提出 LLaDA-o,高效达成多模态理解与生成图6


2. 模态内双向注意力(Intra-Modality Bidirectional Attention)


为了解决全局注意力在推理时重复计算的问题,团队设计了一种轻量且高效的注意力机制。将输入序列划分为不同的模态块,在块内使用全连接注意力,在块间强制执行因果注意力。这样一来,作为前置条件的图像和提示词(Prompt)就可以一次性计算并复用 KV Cache,极大地避免了冗余计算。


统一离散与连续扩散!人大 & 蚂蚁提出 LLaDA-o,高效达成多模态理解与生成图7


3. 自适应长度增强(Adaptive Length Augmentation)


为了让掩码扩散模型学会「长话短说」和「长篇大论」,研究团队引入了一种纯数据驱动的训练策略。在训练时,对目标回复进行随机的「延长(添加 EOS token)」或「截断」操作。这种方法无需修改任何底层架构,就让模型学会在推理时根据上下文动态决定输出长度,解决了变长文本生成的痛点。


总结与展望


LLaDA-o 优雅地将离散的语言理解与连续的视觉生成统一在了 Mixture of Diffusion 框架下,交出了一份多模态全能扩散模型的高分答卷。这项工作不仅证明了扩散模型完全有能力在多模态「理解 + 生成」的全能赛道上与自回归模型正面硬刚,更为未来非自回归架构的发展开辟了极具潜力的新路径。


随着底层大语言扩散模型的持续进化,我们有理由相信,基于扩散架构的统一大模型将在未来的通用人工智能版图中占据举足轻重的地位。


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
智算绿动,蓉塑新质 | 2026“东数西算”赋能工业绿色智能转型峰会圆满落幕
中国工业软件,正冲击全球下一代工业OS霸权!
灿瑞科技全球芯片研发中心主体封顶,打造普陀“工业上楼”标杆
国内首个!360发布“纳米漫剧流水线”,AI漫剧生成进入工业化时代
华润微电子与格创东智共建工业软件与AI创新中心
工业AI新锐CVector完成500万美元种子轮融资,聚焦“运营经济学”赋能传统制造
海尔、小米、小鹏等10余位“一把手”两会建言:助推工业具身机器人进厂落地
春晚“无人机大阅兵”:亿航、峰飞、中航工业集体“秀肌肉”
Margo计划——全球工业自动化巨头们开启历史性合作
Agent 2.0时代来了,首批「工业级智能体」正在核心位置上岗
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号