如您有工作需要分享,欢迎联系:aigc_to_future
作者:Xunzhi Xiang等
解读:AI生成未来

文章链接:https://arxiv.org/pdf/2508.03334
项目链接:https://nju-xunzhixiang.github.io/Anchor-Forcing-Page/
亮点直击
Macro-from-Micro,一种分层自回归规划方法,能够在整段视频的各片段间形成连贯的全局故事情节,同时大幅减少长视频生成中的时序误差累积。 基于MMPL的内容填充(MMPL-based Content Populating),在预规划关键帧的指导下并行合成多个片段的帧,打破传统自回归流程固有的顺序性瓶颈。 进一步设计了自适应多GPU负载调度策略,平衡设备间的片段生成任务,显著减少长视频合成的实际运行时间。




总结速览
解决的问题
长视频生成的时序漂移问题:传统自回归(AR)模型因误差累积导致长视频生成时出现时序不一致(temporal drift)。 并行化限制:现有AR方法需严格逐帧生成,无法并行化,计算效率低。 全局一致性不足:传统扩散模型需全局优化所有帧,计算开销大且难以保证长视频的跨片段连贯性。
提出的方案
分层规划框架(MMPL): 微观规划(Micro Planning):在短片段内预测稀疏关键帧,提供局部运动与外观先验。 宏观规划(Macro Planning):通过自回归链连接各片段的关键帧,确保全局叙事一致性。 并行化内容填充:基于规划的关键帧,并行生成片段内中间帧,打破逐帧依赖。 自适应负载调度:动态分配GPU资源,加速生成过程(速度提升至原时间的1/3)。
应用的技术
自回归与扩散混合:结合AR的时序性和扩散模型的高保真生成能力,避免离散化伪影。 分层关键帧预测:通过两级规划(微观+宏观)平衡局部细节与全局连贯性。 并行化生成:利用关键帧约束,实现跨片段并行填充中间帧。
达到的效果
质量与稳定性提升:在长视频生成中优于现有方法,减少时序漂移和误差累积。 高效并行化:通过自适应调度,显著加速生成(速度提升约3倍)。 应用兼容性:适用于电影制作、虚拟现实等需长时序一致性的场景。
长视频生成中的漂移分析
自回归(AR)模型。自回归(AR)模型通过概率链式法则分解联合概率分布来生成序列:

其中表示所有先前生成的元素。在实践中,AR模型通常采用教师强制策略进行训练,该策略在训练期间用真实历史数据替换模型自身的过去预测。这将训练目标简化为标准的负对数似然(NLL)最小化:

其中表示序列的真实前缀。这样的训练确保了稳定高效的优化,但也引入了训练-测试差异(通常称为暴露偏差),因为在推理过程中模型将依赖自身的预测而非真实历史数据,可能导致长序列中的误差累积。
为了分析误差累积的根本来源和影响,将AR生成建模为模仿学习(IL)框架下的序列决策过程。这里状态定义为,动作为,策略为,最优策略为。最大似然训练对应于行为克隆,它最小化了最优策略诱导的状态分布上的训练损失,但一旦策略在其自身轨迹上执行时就会遭受复合误差。
在模仿学习文献[Ross et al. 2011]中,执行通过行为克隆训练的策略通常会导致误差累积。这是因为策略是在自身预测而非训练时看到的最优状态上执行的。为了分析这种效应,本文使用推理时遗憾度来衡量行为克隆策略与最优策略在轨迹执行过程中的性能差距:

此处表示在整个执行周期内运行策略的期望累积损失(或成本)。设表示行为克隆策略在步执行中的平均期望误差,其本身存在上界。行为克隆的遗憾度被限定为:

基于此分析,并遵循[Arora et al. 2022],进一步将其扩展到使用模型和解码策略的AR视频生成场景,得到:

这表明即使每步误差很小,在期望情况下会线性累积,在最坏情况下会二次累积,从而解释了在暴露偏差下自回归生成中观察到的渐进漂移和长时退化现象。
非自回归(Non-AR)模型。非AR模型在单次前向传递中联合生成未来帧,仅以初始帧为条件。形式上,帧的联合分布建模为,允许所有帧被联合优化而非顺序生成。这种联合预测消除了逐步依赖性,从而避免了自回归模型固有的累积误差传播,并为长时合成提供了更高的稳定性,如图像到视频生成所示。

方法
微观到宏观规划
本文观察到自回归模型的误差累积与传播步数成正比,而非自回归模型通过联合优化将误差与步数解耦。为了结合两种范式的互补优势,提出了微观到宏观规划(MMPL),这是一种包含两个关键组件的统一规划方法:微观规划和宏观规划。
微观规划。如下图3所示,微观规划通过预测一小部分关键帧(作为后续内容合成的稳定锚点)为每个包含帧的片段构建短时故事情节。

这组稀疏的预规划帧从初始帧联合预测得出,该过程可表示为:

其中表示初始帧的早期邻近帧,作为全局中点,标记序列的终止帧。这些预规划帧在仅以初始帧为条件的情况下进行联合优化,使得它们与的相互漂移可忽略不计。此外,由于所有帧都是从初始帧联合优化的,它们的残差误差相互约束并保持可忽略,避免了顺序自回归生成特有的累积漂移。该设计确保每个片段内的时间连贯性,并为后续填充过程建立稳定、抗漂移的基础。
宏观规划。虽然微观规划提供了片段级的时间故事情节,但在捕捉整个视频的全局依赖关系方面仍有局限。为实现长程连贯性,将微观规划扩展为宏观规划。宏观规划通过顺序链接跨视频片段的重叠微观规划,为整个长视频构建全局故事情节。一个片段的终止预规划帧作为下一个片段的初始条件,从而将局部规划连接成连贯的长时结构,这可视为视频时间线上的片段级自回归过程。设帧长为的完整视频被划分为个短片段,第个片段的首帧记为,该过程可表示为:

其中表示第个片段的微观规划。通过分层链接这些片段级规划,宏观规划将原始的逐帧长程自回归依赖转化为稀疏规划依赖的片段级序列。这种重构通过确保跨片段的一致故事情节来保持全局时间连贯性,并抑制临时漂移,有效将误差累积规模从传统自回归生成的帧级别降低到我们框架下的片段级别()。
当通过自回归链连接微观规划时,直接重用前一片段的尾部潜在标记作为下一片段的前缀通常会导致边界闪烁和跨片段过渡的色彩偏移。该问题源于分布不匹配:首帧潜在标记本质上与其他帧不同——它仅代表初始图像,而后续帧包含时间压缩信息,导致帧间统计特性不一致。
受[CausVid Yin et al. 2025]启发,本文引入抗漂移的重新编码-解码策略来稳定片段间过渡。如下图4所示,首先将前一片段的初始潜在标记与其终止规划标记拼接,并将序列输入VAE解码器进行视频重建。但由于VAE解码要求每个标记必须以严格连续的时间前缀为条件,输入序列中的任何时间不连续性都会导致明显的色彩偏移和边界伪影。为缓解该问题,我们将终止规划标记复制一次,并将副本插入初始潜在标记与原终止规划标记之间,形成时间连续的潜在序列以供解码。重建后,我们重新编码终止规划标记的第二个副本,并将生成的潜在标记作为下一片段微观规划的初始标记。该设计在潜在空间强制实现统计和时间一致性,有效抑制色彩偏移和边界闪烁,实现平滑稳定的片段间过渡。

基于MMPL的内容填充
微观规划自然地将每个视频片段划分为两个子片段,由连续的规划帧界定,例如和。为了在这些规划帧的约束下通过填充剩余帧来合成完整片段,本文引入基于MMPL的内容填充。微观规划生成三种类型的规划帧:早期帧、中点帧和终止帧。受早期基于首尾帧生成视频的方法启发,将内容填充过程分为两个阶段,如下图5所示。

在第一阶段,以初始帧和早期规划帧作为头部,中点规划帧作为尾部填充区间,合成中间内容。在第二阶段,我们将初始帧到中点规划帧之间的所有帧作为新头部,终止帧作为尾部扩展填充序列,从而生成剩余内容。该过程可表示为:

其中对应第个片段中待合成的帧。变量、和分别表示第片段的早期、中点和终止规划帧。符号和表明每个子片段的生成不仅以其边界规划帧为条件,还依赖于同一片段中所有先前的帧。因此,两个子片段中的中间帧和表示待填充的剩余内容。
该分解明确展示了每个子片段内的内容填充仅依赖于其对应的规划帧。因此,只要内部规划帧已生成,多个子片段可以并行独立优化。此外,利用多GPU,所提出的基于MMPL的内容填充可将片段级优化分配到不同设备上,实现并发执行。这种并行化显著提高了计算效率,促进高效的长视频合成。形式上,该并行生成过程可表示为:

其中全局视频合成任务被分解为独立的片段级子任务,一旦规划帧完全生成,每个子任务可在多GPU上并行执行。
自适应负载调度
不同片段的内容填充可在多GPU上并行执行。但该方法存在一个关键限制:必须等待所有片段的规划帧完全生成后才能开始并行化,这会引入不可避免的前缀延迟,降低整体流水线吞吐量。为进一步提升生成效率,我们提出自适应负载调度策略,动态调整微观规划、宏观规划和内容填充的执行顺序以最大化并行性。具体而言,宏观规划被构建为片段级微观规划的自回归链,这自然强制了跨片段规划帧的严格生成顺序。该特性允许在早期片段的规划帧就绪后立即启动其内容填充,而无需等待所有后续片段的规划帧完成。
为说明负载调度,假设设置、和以均匀覆盖时间跨度。如下图6所示,当前片段通过微观规划生成的规划帧(或)立即作为下一片段的初始帧。这使得下一片段可在当前片段仍在执行内容填充生成时启动自身的微观规划。这种阶段独立性天然支持片段并行生成,如公式(10)所示:


其中下一片段的初始帧可选择为或。该选择直接决定并行执行策略并产生两种模式:
最小内存峰值预测:当作为时,跳过中间帧,绕过具有最深时间上下文和最高生成延迟的区域。此模式最小化峰值内存使用并降低每片段延迟,但引入片段间帧重用,略微降低整体吞吐量。
最大吞吐量预测:当作为时,所有中间帧在片段内顺序生成,消除片段间冗余并实现最大流水线效率,代价是更高的每片段计算量。
这两种执行策略在本地内存/延迟与全局吞吐量之间提供权衡,允许灵活的部署选择。
实验
基线模型。将本模型与规模可比的开源视频生成系统进行对比,包括FIFO、SkyReelsV2、MAGI、CausVid和Self-Forcing。所有方法均在统一的滑动窗口协议下评估,其中每个固定长度片段(如5秒)因果依赖于前一片段的末尾帧。采用SkyReels-V2-14B和MAGI-4.5B作为主要基线,CausVid和Self-Forcing(1.3B,从14B教师模型蒸馏)作为高保真自回归代表。
训练细节。在Wan2.1-T2V-14B(基于双向DiT的流匹配模型,原设计用于5秒视频生成)上实现MMPL。为实现高效长时建模,训练时采用FlexAttention实现可扩展注意力,推理时使用FlashAttention-v3加速采样。模型在50,000条人工筛选的832×480分辨率高质量视频上微调,提供多样且干净的训练数据以支持稳定优化和长时生成。使用AdamW优化器在32块H100 GPU上训练8,000次,学习率为。分层规划中设置、和,分别对应指导片段生成的早期、中点和晚期规划帧。
评估。在VBench-long基准上评估,该基准测量主体一致性、背景一致性、运动平滑度、美学质量和成像质量,综合捕捉时间稳定性和感知保真度。主要研究中,在单块H100 GPU上为120个随机采样的MovieGen提示生成30秒视频。另进行用户研究补充定量指标:为每个基线使用前19个MovieGen提示生成约30秒的19段视频,29名独立参与者进行成对比较,选择在视觉质量和语义保真度上更符合输入提示的视频。这种主客观结合评估提供了数值性能和感知质量的严格检验。用户研究细节见补充材料。
定量结果。如下表1所示,Macro-from-Micro方法在VBench上取得最佳综合性能:主体一致性0.980、运动平滑度0.992和美学质量0.628领先,成像质量0.661保持竞争力,仅背景一致性0.968略低于CausVid和MAGI-1。但VBench指标(尤其是主体/背景一致性)倾向于静态场景,无法完全反映长视频生成的感知复杂度。为此,通过人类研究生成每方法19段30秒多样化视频(涵盖人物、车辆和自然景观),30名参与者从文本-视觉对齐、内容一致性和长序列色彩稳定性三方面评分。本方法在三项中均获最高分:文本-视觉对齐80.0、内容一致性79.2、色彩稳定性83.1,显著优于其他基线。

如下图1所示,人类评估中本方法持续受偏爱,证实其感知优势。

定性结果。如下图7所示,AR基线因长视频生成中的误差累积表现出严重时序漂移。在30秒序列中,这些模型逐渐丧失视觉保真度,模糊、褪色和明显色移等伪影加剧。动态场景中退化更甚,运动不连续和几何畸变进一步破坏时间连贯性。相比之下,本文的方法在整个序列中保持高质量,对运动漂移和色彩失真具有强鲁棒性,持续超越CausVid和Self-Forcing,在挑战性长时条件下性能优于SkyReels-V2和MAGI-1,凸显其稳定高保真长视频合成的有效性。

并行推理效率。为突出Macro-from-Micro规划的实际优势,本文比较其标准推理与并行化变体。并行策略在不损失生成质量下实现显著加速。如上图1所示,本方法将60秒视频生成时间大幅缩短,展现强扩展性和实时部署适用性。仅用2块GPU即可减半推理时间,借助流水线设计,4块GPU进一步将生成时间降至原时间的约三分之一。这些结果证实本方法有效平衡吞吐量与质量,其硬件效率使其高度适合大规模视频合成应用。
消融研究。在长视频生成中,微观规划阶段规划帧的放置位置对MMPL整体性能至关重要,因其直接影响时序平滑度和结构一致性。为验证该假设,进行三种微观规划变体的消融实验:(i) 无早期帧规划(省略初始时间步附近的帧);(ii) 无中点帧规划(移除中心锚点帧);(iii) 完整MMPL策略(保留所有规划帧)。如下表2所示,完整MMPL配置在所有指标上均优于其他变体。此外,如下图8定性对比显示,完整MMPL策略不仅产生更平滑的时序过渡和更稳定的长时内容,而其他变体因缺失特定规划帧,在对应位置易出现不连续过渡或明显跳帧。


讨论
与加速和蒸馏方法的兼容性。本范式天然兼容DMD等加速技术和蒸馏方法,无需修改原架构。训练时仅需调整注意力掩码控制可见帧范围,推理时通过重组视频片段解码顺序实现高效生成。这种兼容性使Macro-from-Micro能无缝集成现有加速流程。未来结合模型蒸馏等策略可进一步提升推理效率而不损失生成质量。
与自校正方法的兼容性。Macro-from-Micro与Self Forcing等逐步自回归误差校正策略互补。训练时模型通常基于真实视频帧去噪预测下一帧,若将真实帧替换为先前预测帧,可自然过渡至Self-Macro-from-Micro模式。该混合策略能进一步延长可生成视频时长,并显著提升长序列的时间一致性。
局限性与未来方向。尽管Macro-from-Micro大幅缓解预测误差累积,超长视频生成中仍可能出现轻微质量下降。由于片段内内容帧通过规划帧插值生成,边界附近运动连续性可能减弱。未来工作将探索更有效的外推策略,并引入受世界模型启发的记忆增强模块(包含存储、检索和读取机制),以进一步提升长视频生成的时间一致性和整体合成质量。
参考文献
[1] Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
