如您有工作需要分享,欢迎联系:aigc_to_future
作者:Wenxuan Huang等
解读:AI生成未来
论文链接:https://arxiv.org/pdf/2509.06945
开源链接:https://github.com/Osilly/Interleaving-Reasoning-Generation

亮点直击
新训练范式——交替推理生成学习(IRGL),并将其训练目标划分为两个子目标:1)强化模型的初始思考与生成阶段;2)赋予模型生成细致、高质量的文本反思能力,并能够基于这些反思生成改进后的图像。 构建了一个新数据集——IRGL-300K,该数据集将上述两个目标细化为两个互补的学习重点:1)学习基于文本的思考过程;2)掌握“思考驱动图像生成”的完整流程。 IRGL-300K:包含六种分解的学习模式,协同提升模型在整个 IRG 过程中的表现,同时确保对数据资源的最优利用。 IRG方法在多个基准测试中达到了SOTA,多个基准上实现了5–10 分的绝对性能提升。视觉质量和细粒度保真度方面也显著提升。
总结速览
解决的问题
尽管统一的多模态理解与生成模型在图像生成方面取得了显著进展,但在以下方面仍存在显著不足:
指令遵循能力弱:生成结果难以严格对齐用户输入的自然语言指令; 细节保真度不足:在纹理、结构、阴影等视觉细节上表现不佳; 端到端生成难以兼顾语义与质量:一次性生成高质量、语义准确的图像具有挑战性。
这些问题源于当前模型缺乏推理能力与多步优化机制,难以在生成过程中动态调整与改进输出。
提出的方案
为解决上述问题,本文提出了一个新的生成框架:
交替推理生成(IRG, Interleaving Reasoning Generation)
核心理念:将图像生成过程拆解为两个阶段:
思考阶段:模型基于输入指令生成一段文本形式的思考,明确生成目标; 反思阶段:模型对初始图像进行文本反思,并基于反思生成改进后的图像。
交替推理生成学习(IRGL, Interleaving Reasoning Generation Learning)
针对 IRG 设计的训练机制,分为两个子目标:
强化初始“思考-生成”阶段,确保核心语义与基础质量; 优化“反思-改进”阶段,提升细节、保真度与美学表现。
应用的技术
统一多模态基础模型:
原生支持交替文本-图像输出; 支持端到端训练与推理。
IRGL-300K 数据集:
包含 30 万条“思考–图像”轨迹; 设计六种分解学习模式,覆盖文本思维学习与图像生成全过程。
两阶段训练策略:
第一阶段:训练模型生成高质量的初始思考与反思文本; 第二阶段:在完整轨迹数据上训练 IRG 流程,提升图像生成能力。
端到端优化机制:
训练过程中引入完整“思考–图像”序列,防止能力退化; 实现语义与视觉质量的协同优化。
达到的效果
性能显著提升,达成 SoTA 水平
在五个权威基准测试中(GenEval、WISE、TIIF、GenAI-Bench、OneIG-EN)实现了5–10 分的绝对性能提升; 在指令遵循、语义一致性、细节保留等方面全面优于现有方法。
图像质量与细节保真度显著改善
有效提升了图像的纹理渲染、阴影真实感、结构细节(如手指等复杂部位)的表现; 在保持语义一致性的同时,增强了图像的视觉美学与精致度。
优化生成流程,提升模型稳定性与泛化能力
通过“思考–反思–生成”的交替流程,降低了直接生成高质量图像的难度; 多轮推理机制使模型能够逐步优化输出结果,更贴近用户预期。
首次实现端到端支持交替推理的文本生成图像系统
相比以往仅用于纠错的反思方法,IRG 能够在端到端框架中优化细粒度细节与整体视觉质量; 为未来多模态生成模型提供了新范式与技术路径。
验证交替推理对 T2I 的广泛适用性与变革潜力
实验证明 IRG 是一种强大的通用生成范式,可广泛应用于复杂图像生成任务; 为统一多模态模型的进一步发展提供了理论与实践基础。
方法
交替推理生成
总览
IRG(交替推理生成)可被定义为包含两个部分:(1)基于文本的初始推理过程,随后基于该推理进行图像生成;(2)重复第一部分以生成改进后的图像。在本研究中,仅关注一次改进迭代,即将第二部分限制为一个轮次(在公式 2 中将 设为 2),以验证本文的假设:交替推理是否能有效提升文本生成图像的质量。
接下来将详细介绍交替推理生成学习(IRGL)框架,并解释如何有效利用不同形式的交错推理数据,执行具有不同侧重点的分层学习。此外,介绍了 IRGL-300K 数据集的数据构建流程,简要描述了 IRG 的推理策略,例如无分类器引导(Classifier-Free Guidance, CFG)条件设计。
交替推理生成学习
当本文将 设为 2 时,公式 2 可被重新表示为:

可以观察到,当旨在提升最终图像 的质量时,在 IRG 流程中本文将该过程分解为四个渐进的中间步骤:
确保初始思考过程 的正确性; 提升初始生成图像 的质量; 基于第一张图像生成准确的改进思考步骤 ,以引导更优图像的生成; 整合所有前述决策步骤以合成最终高质量图像 。显然,如下图 3 所示,可以设计多种分解学习模式来提升模型的中间推理能力。

本文从初始推理步骤的增强开始,即上述步骤(1)和(2),这可以具体化为以下任务:
初始思考理解学习:在该任务中,本文旨在让模型学习如何在给定原始提示 和先验图像特征 的条件下生成正确的初始思考过程。该任务的设计理念如下:当模型同时获得一个提示和一张与该提示一致的图像时,本文构造一个辅助问题 ,在该问题中,模型通过图像理解监督学习,掌握如何生成与提示一致的推理过程,并识别出这种推理过程将产生何种图像。

初始思考生成学习:该任务直接模拟在给定原始提示的情况下生成初始思考的推理过程,相较于初始思考理解学习,这是一个更具挑战性的任务。

初始完整学习:在这一完整的初始推理学习设定中,模型同时从基于文本的推理序列和高质量图像数据中学习,以提升其初始图像生成的质量,从而为后续推理阶段中更优图像的生成提供更坚实的基础。
此外,本文还设计了三个任务,用于学习如何基于初始推理步骤生成改进思考过程和改进图像(即上述步骤(3)和(4)):
改进思考理解学习:该任务与初始思考理解学习密切相关,但其重点在于使模型在给定提示的条件下,学习如何生成用于将初始图像提升为改进图像的改进思考过程。这一过程通过理解提示 ,比较初始图像特征 与改进图像特征 之间的差异,并回答精心设计的问题 来实现。

改进思考生成学习:该任务建立在初始推理阶段的基础上,重点在于学习如何生成改进思考过程。

改进完整学习:该任务代表了一个完整的 IRG 流程,但本文限定模型在初始推理已完成的前提下,仅学习改进推理过程和高质量改进图像部分。作为 IRG 中最关键的阶段,模型必须学会识别两张图像在视觉质量和细粒度保真度上的差异,并利用这一理解在改进推理步骤中生成最优图像。

上述分解的学习模式可以明确地划分为两个训练目标:
学习基于文本的思维过程(初始思维理解学习、初始思维生成学习、改进思维理解学习和改进思维生成学习); 在推理过程的辅助监督下,学习完整的高质量图像生成流程(初始完整学习和改进完整学习)。
这一设计同样应对了高质量、完整的 IRG 思维-图像轨迹数据有限的问题,而从基于文本的推理中学习在一定程度上缓解了这一问题。
此外,本文采用了一个两阶段的训练流程。
第一阶段中,模型在所有六个任务上进行优化,以从给定提示中生成准确的初始推理,并生成基于初始推理步骤的文本反思以提升输出质量。该阶段的主要目标是增强基于文本的推理能力,同时结合完整的思维-图像轨迹,以避免核心生成能力的退化。经验上本文发现,这种以推理为中心的训练收敛相对较快。
第二阶段,利用第一阶段中学到的思维生成能力,本文使用完整的思维-图像轨迹数据(即初始完整学习和改进完整学习中的数据)来高效优化整个 IRG 流程。在涉及图像生成的这一训练阶段中,收敛需要更多的迭代次数,因为模型必须花费额外的训练时间来学习从初始图像到改进图像的细粒度保真度变换。
讨论:不幸的是,即使仅考虑两轮推理的情形,构建完整的交替 IRG 数据也是一项不平凡的任务,主要由于以下两个挑战。首先,获取最终的高质量图像本身就具有挑战性,因为现有开源 T2I 数据集的质量仍然不尽如人意。这个限制促使许多近期研究转而蒸馏如 GPT-4o 等强大模型生成的图像。其次,尽管可以获得 GPT-4o 的一部分高质量数据,IRG 仍然需要将初始图像与其改进版本配对的样本。设计从初始图像到改进图像的转化过程本身就是一个挑战,这意味着这样的配对必须从零开始构建,无法直接从 GPT-4o 蒸馏的 T2I 数据中获得。
这两个问题使得在大规模上获取完整的 IRG 数据集变得困难。为了缓解完全优化训练数据的稀缺问题,本文设计了多个中间训练目标。这是因为在中间目标训练中本文仅学习基于文本的思维过程,从而避免低质量图像数据的污染。本文预期,在条件允许的情况下,获取大量完整的 IRG 数据将带来更好的性能。
交替推理数据构建
这里介绍用于上述六种分解学习模式的 IRGL-300k 数据集构建流程。
用于学习初始推理步骤的数据 对于“初始思维理解学习”任务,本文从包含提示-图像对的开源 T2I 数据集中构建训练数据。首先,本文设计一个初始思维模板,然后指示一个大型语言模型(例如 Qwen2.5-VL)生成与原始 T2I 数据中的提示和对应图像一致的推理过程。最后,本文根据公式 组织数据:提示对应 ,图像被编码以获得特征 ,手动设计的理解问题(例如,“你被提供了一个提示和一张图像……”)对应 ,由多模态大模型生成的初始思维对应 。
对于“初始思维生成学习”任务,初始思维获取流程与“初始思维理解学习”任务类似。它使用提示和多模态大模型生成的初始思维来获得训练数据(如公式 )。
对于“初始完整学习”数据,为确保从高质量图像信息中学习,本文将原始提示输入一个高质量图像生成模型(GPT-4o)以生成高质量图像,该图像作为公式 中的 。初始思维的获取方式与上述类似,即将提示和 GPT-4o 蒸馏的高质量图像提供给多模态大模型生成。
用于学习改进推理步骤的数据 在生成用于改进推理步骤的数据时,本文面临一个关键挑战:在已获得高质量图像(作为改进图像)的前提下,必须确定初始推理步骤数据的来源。本文选择使用由基础模型(例如 BAGEL)在相同提示条件下生成的数据作为初始推理步骤数据。该设计决策基于两个考虑:(1) 它提供了一种简单高效的方式以大规模获取多轮 IRG 数据;(2) 它允许本文在不损害基础模型原有能力的前提下提升模型性能。
对于“改进思维理解学习”任务,首先将提示输入基础模型以生成初始思维和对应的初始图像。然后本文设计一个引导提示,引导多模态大模型基于基础模型生成的图像和 T2I 数据集中的图像生成改进思维。模型被指示按照预定义模板生成改进思维。本文采用了阶段级模板,要求模型首先生成对先前生成图像问题的部分分析,然后依次生成以下格式的阶段内容:“所需改进的详细说明:...”、“逐步修改指导:...”、“改进图像的最终综合提示:...”。最后,本文根据公式 组织数据:原始提示 ,基础模型生成的初始图像 ,T2I 数据集中的图像 ,手动设计的理解问题(例如:“你被提供了一个提示和两张图像……”),以及改进思维 。
对于“改进思维生成学习”任务,数据与“改进思维理解学习”任务相同,但使用基础模型生成的初始思维作为公式 中的 。
在“改进完整学习”设置中,GPT-4o 被用于生成 IRG 轨迹中的改进图像。给定提示和来自基础模型的初始图像,GPT-4o 生成一张更高质量、与提示一致的图像,本文将其作为公式 中的改进图像 。随后,使用多模态大模型生成阶段级的改进思维,详细描述从初始图像到改进图像的转变过程。
推理策略
如上图 3 所示,模型生成一个“文本–图像–文本–图像”的轨迹。这带来了一个挑战:在传统的基于扩散的生成模型中,CFG 条件设计通常较为直接,例如直接比较有无提示的情况。相比之下,对于本文提出的 IRG,即使仅在两轮推理流程中,在生成改进图像之前,也存在四个可能的条件源可供比较(即提示、初始推理、初始图像和改进推理)。因此,需要一个定制的 CFG 条件策略。
基于此,采用了一个包含两种互补 CFG 条件方案的框架:(1) 有初始生成图像信息与无图像信息的条件对比;(2) 有反思文本与无反思文本的条件对比。在实际操作中,将 CFG 图像条件(有图像信息与无图像信息)和 CFG 文本条件(有文本信息与无文本信息)的引导尺度超参数设置为 。该策略有助于在改进推理步骤中保持图像的高视觉质量和保真度,同时显著提升生成稳定性。
实验
实验设置
IRGL-300k 数据集。对于初始推理理解学习(Initial Thinking Understanding Learning)、初始推理生成学习(Initial Thinking Generation Learning)、改进推理理解学习(Improving Thinking Understanding Learning)和改进推理生成学习(Improving Thinking Generation Learning)任务,本文使用开源的 T2I 数据集 OSP1024-286k。在每个任务中,本文从该数据集中采样 个实例用于数据构建。
在初始完整学习(Initial Full Learning)中,本文使用 GPT-4o 蒸馏得到的 T2I 数据集 BLIP3o-60k。
对于改进完整学习(Improving Full Learning),本文通过使用精心设计的提示集对 GPT-4o 进行蒸馏来构建数据集。具体而言,该提示集来源于 T2I-compbench 的训练集。此外,对于每个提示,本文使用 Qwen3 生成 – 个复杂提示变体。此外,按照相同方法,本文从常见实体构造提示,并使用 Qwen3 将每个提示改写为 – 个复杂变体(本文不直接使用原始实体提示来生成 GPT-4o 蒸馏图像)。最终,该过程生成了约 个样本。
使用 Qwen2.5VL 生成初始推理和改进推理过程,图像由 GPT-4o 生成。
训练设置。采用统一的多模态理解与生成模型 BAGEL 作为基础模型。在第一阶段训练中,在六种分解学习模式上使用交叉熵损失(cross-entropy loss, CE)和均方误差损失(mean squared error loss, MSE)对基础模型训练 步。随后,在初始完整学习和改进完整学习任务上继续训练模型 步。
主要结果
为了全面评估本文模型的视觉生成性能,本文在一系列具有代表性的基准上进行了评估,这些基准涵盖了可控生成与知识驱动生成的互补方面。总体而言,这些基准全面展现了本文模型在对齐性、推理能力、风格控制和文本渲染方面的优势。以下是与当前最先进(SoTA)基线模型的详细对比,并强调本文提出的 IRG 模型所取得的改进。
GenEval。下表 1 报告了在 GenEval 基准上的定量结果,该基准评估多种以物体为中心属性(如计数、颜色和空间位置)为基础的组合式文本生成图像(T2I)能力。本文同时对生成专用模型和统一理解–生成模型进行了评估。在生成专用方法中,FLUX.1-dev 以整体得分 表现最佳。在统一模型类别中,本文提出的 IRG 模型以整体得分 表现最佳,并在多个子任务中持续超越所有基线模型,包括诸如计数()和位置()等具有挑战性的方面。这些结果确立了 IRG 在 GenEval 上的新最先进水平,展现了强大的可控性与精确的组合生成能力。

WISE。下表 2 报告了在 WISE 基准上的定量结果,该基准评估 T2I 模型在复杂语义理解和世界知识推理方面的能力,涵盖六个领域:文化、时间、空间、生物、物理和化学。与 GenEval 等组合测试不同,WISE 更关注知识驱动的生成,要求模型在具备组合控制能力的同时,准确反映真实世界语义。在生成专用模型中,FLUX.1-dev 以整体得分 表现最佳。在统一模型类别中,IRG 模型以整体得分 创下新最先进水平。它在所有六个领域持续优于先前的统一模型,在文化知识上得分 ,时间推理 ,空间理解 ,在生物和物理领域均超过 。这些结果表明,IRG 不仅提升了整体可控性,还比现有方法更有效地整合了世界知识,为 T2I 生成中的语义对齐设定了新的基准。

TIIF。下表 3 展示了在 TIIF testmini 基准上的定量结果,该基准专为评估 T2I 模型理解并准确执行复杂自然语言指令的能力而设计。该基准涵盖了基础指令跟随(属性、关系和推理)与高级指令跟随(多属性推理、组合控制、风格遵循和文本渲染),并包含面向设计师提示的独立评估。

在以 QwenVL2.5-72B 作为参考模型的评估设置中,本文的 IRG 模型取得了最佳整体性能,短指令得分为 ,长指令得分为 。值得注意的是,IRG 在高级指令跟随任务中表现出持续改进,平均得分为 ,并在组合任务中表现优异,例如属性+推理任务得分为 ,关系+推理任务得分为 。总体而言,这些结果突显了 IRG 出色的指令跟随能力,其在不同评估设置中具有良好的泛化能力,并显著优于现有开源系统,确立了其在可控 T2I 生成中的新最先进地位。
GenAI-Bench。下表 4 报告了在 GenAI-Bench 基准上的结果,该基准测试组合式文本到图像生成能力,涵盖基础提示(属性、场景、关系:空间/动作/部件)与高级提示(计数、差异、比较、逻辑:否定/全称)。本文的 IRG 模型取得了最佳整体得分 ,超越了多个强基线。IRG 在 GenAI-Bench 上展现了最强的整体性能,结合了稳健的基础语义对齐能力(属性、场景、关系)与在高级提示下的组合与逻辑泛化能力。

OneIG-EN。下表 5 总结了 OneIG-EN 的定量结果,这是 OneIG-Bench 基准的英文子任务,评估细粒度的 T2I 生成能力,涵盖五个维度:对齐性、文本渲染、推理、风格和多样性。最终的整体得分是这五个维度得分的平均值。本文的IRG 模型在开源方法中确立了新的SOTA,整体得分为 ,仅次于 GPT-4o()。IRG 在对齐性()和风格()方面取得最佳成绩,并在推理()和文本渲染()方面表现均衡。这些结果表明,IRG 不仅擅长于忠实对齐用户提示,还能生成审美一致的输出,展现出其优越的通用生成能力。

实验结果分析
消融实验。下表 6 分析了数据和训练目标的贡献。在 self-CoT 基线的基础上加入高质量图像训练带来了适度提升(WISE 从 提升至 ,TIIF 从 提升至 ),而引入 IRG 流程(即使用初始完整学习和改进完整学习的数据)则带来了显著提升(WISE 和 GenAI-Bench 的基准得分均提升 )。此外,采用包含六种分解学习模式的 IRG 实现了最大幅度的提升(WISE ,TIIF ,GenAI-Bench )。这支持了本文的假设:仅基于文本的思维监督(第 2.2.2 节)是稀缺的完整 IRG 思维-图像轨迹的高效数据替代方案,并且将基于文本的思维学习与完整学习模式混合能够提供互补信号。

单轮与多轮 IRG 流程分析。如下表 7 所示,双轮 IRG 与初始生成图像在基准得分上相近,在某些基准上,初始生成图像甚至取得略高的得分。然而,这并不意味着多轮 IRG 没有优势。本文提出的 IRG 利用图像条件反思来提升视觉质量和细粒度保真度。

本文在 WISE 基准上评估了初始生成图像与 IRG 改进后的图像,通过提示多模态大模型(MLLM)直接比较两张图像在生成质量、细粒度细节、美学和其他视觉方面的表现。为消除位置偏差,本文随机打乱两张图像呈现给 MLLM 的顺序,并重复评估三次,报告平均结果。评估器包括多个 MLLM,如 Qwen2.5-VL-72B、GPT-4o 和 UnifiedReward(使用其默认的成对比较协议,包含原始任务文本提示)。这种使用多个 MLLM 作为评审的方法减轻了评估器特定的偏差,并指示出感知质量的更好泛化能力。
上表 7 中的排序研究显示,相较于仅使用第一步的变体,完整的 IRG 流程在多个自动评分器上的一致性更高(平均排名得分: 对 ),表明两轮 IRG 生成的图像改进被异构 MLLM 评估器一致认可。
可视化比较结果。如下图 4 所示,与 BAGEL 和带 self-CoT 的 BAGEL 相比,本文提出的 IRG 在生成质量和视觉保真度方面表现更优。此外,相较于第一轮生成的图像,IRG 中的反思步骤提升了初始图像的视觉质量和细粒度保真度。例如,改进了次优纹理并细化了此前渲染不佳的细节。这表明 IRG 不仅生成语义正确的图像,还高度重视生成内容中的细节质量。

错误分析与失败模式。可视化结果(下图 1 和上图 4)揭示了仍然存在的失败模式:
(1) 在重复纹理(如织物、树叶)上出现微结构饱和,改进步骤有时会过度平滑高频细节;
(2) 在密集约束下的文本渲染偏移,细化过程中在风格一致性与可读性之间做出权衡;
(3) 拥挤场景中的全局-局部张力,局部编辑提升了部分区域但略微扰乱了整体布局。

本研究发现这些现象在 引入大量同时编辑时最为明显;保守的编辑策略可以提升稳定性,但可能限制可达的性能提升。
结论
交替推理生成(Interleaving Reasoning Generation,IRG)框架,通过“文本–图像–文本–图像”的过程生成高质量图像。具体来说,给定一个提示,模型首先生成一个基于文本的推理序列,然后基于该推理生成图像。接着,模型在初始图像的基础上进行反思,思考如何提升其质量,并通过这一反思过程生成一个精细化图像。
详细介绍了 IRG 在训练与推理流程中的关键设计,大量主流基准测试上的实验表明该方法在生成性能上取得了显著提升。此外,IRG 特别强调提升视觉质量与细粒度细节。
参考文献
[1] Interleaving Reasoning for Better Text-to-Image Generation
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
