首个非自回归多模态模型!Meta推出OneFlow

学姐带你玩AI 2025-10-15 18:16
首个非自回归多模态模型!Meta推出OneFlow图1

题目:OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit Flows

论文地址:https://arxiv.org/pdf/2510.03506

首个非自回归多模态模型!Meta推出OneFlow图2

创新点

  • OneFlow摒弃了传统自回归模型(AR)的严格顺序生成约束,通过插入式编辑流(Edit Flow)处理离散文本token,结合流匹配(Flow Matching)生成连续图像潜变量,首次实现了文本与图像的无序并发生成。

  • 通过动态插入操作,OneFlow无需预设序列长度,可根据输入提示自适应生成不同长度的文本与任意数量的图像。

方法

本文主要研究方法围绕非自回归多模态生成架构OneFlow的设计与优化展开,通过创新性的编辑流(Edit Flow)与流匹配(Flow Matching)混合机制、并发混合模态预训练策略及分层采样与隐式推理方法,实现了文本与图像的高效并发生成与自然推理能力。OneFlow摒弃传统自回归模型(AR)的严格顺序生成约束,采用插入式编辑流处理离散文本token,结合流匹配生成连续图像潜变量,首次实现文本与图像的无序并发生成。其核心在于将多模态生成统一为序列模型,通过共享Transformer主干处理离散token与连续潜变量,降低跨模态对齐难度。

并发交错生成文本与图像的插入操作示例

首个非自回归多模态模型!Meta推出OneFlow图3

本图通过可视化示例直观展示了OneFlow模型的核心特性——变长非自回归生成与并发交错生成能力。 图中以“Show me cute cats”这一提示为例,分阶段演示了模型如何通过插入操作(insertions)动态生成文本与图像的混合序列。本图通过具体案例验证了OneFlow对传统多模态生成范式的突破——摆脱自回归模型的顺序约束,实现文本与图像的真正并行生成,同时保持生成内容的语义一致性(如图像与文本描述的匹配)。这一特性为需要高效、灵活多模态输出的应用场景(如实时对话系统、动态故事生成)提供了技术基础。

并发生成文本与图像的流程与优势

首个非自回归多模态模型!Meta推出OneFlow图4

本图通过架构图与流程示例,系统展示了OneFlow模型在并发交错生成文本与图像任务中的核心机制与技术优势。图中以“Show me a cute cat and a beautiful flower”这一提示为例,分阶段演示了模型如何通过非自回归生成范式与动态插入操作,实现文本与图像的高效并行生成。本图通过具体案例验证了OneFlow对传统多模态生成范式的突破——摆脱自回归模型的刚性流程,实现文本与图像的灵活并发生成,同时保持生成内容的语义一致性(如图像与文本描述的匹配)。这一特性为需要高效、灵活多模态输出的应用场景(如实时对话系统、动态故事生成)提供了技术基础,推动了多模态大模型向高效、可解释、自然推理方向发展。

视觉问答任务中的自然推理生成示例

首个非自回归多模态模型!Meta推出OneFlow图5

本图通过视觉问答(VQA)任务的生成过程,系统展示了OneFlow模型如何利用分层采样策略与隐式推理能力,在无需显式提示(如Chain-of-Thought)的情况下,自然生成包含推理链的答案。图中以“Is there a snowboard in the image? Explain why.”这一问题为例,分阶段演示了模型从视觉搜索到逻辑推理的完整流程。通过具体案例验证了OneFlow在自然推理生成任务中的独特优势——摆脱对显式推理框架的依赖,通过分层采样与隐式推理机制,直接生成包含逻辑链的答案。 这一特性为需要复杂推理的多模态任务(如医学诊断、科学问答)提供了高效解决方案,推动了多模态大模型向更自然、更高效的方向发展。

实验

首个非自回归多模态模型!Meta推出OneFlow图6

本表通过量化对比OneFlow与主流多模态模型(如Flamingo、GPT-4V、DALL·E 3等)在生成效率、输出质量、推理能力三大维度的表现,系统验证了OneFlow在变长非自回归生成架构下的技术优势。实验覆盖文本生成、图像生成及视觉问答(VQA)任务,数据集包含COCO、VQA-v2等标准基准,对比指标涵盖推理速度、文本流畅度、图像保真度及逻辑正确性。

-- END --


最后对多模态学习创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入多模态学习交流群!
首个非自回归多模态模型!Meta推出OneFlow图7

关注“学姐带你玩AI”公众号,回复“多模态生成

领取多模态生成高分论文合集+开源代码

往期推荐:











ACCEPT
据说点赞的都Accept了!
首个非自回归多模态模型!Meta推出OneFlow图8

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号