如您有工作需要分享,欢迎联系:aigc_to_future
作者:Hangjie Yuan等
解读:AI生成未来

文章链接:https://arxiv.org/pdf/2507.08801
项目链接:https://github.com/alibaba-damo-academy/Lumos

亮点直击
MM-RoPE创新:首次在视频生成中优化3D RoPE的频谱分配与位置缩放,兼顾文本与视频模态的兼容性。 AR-DF训练策略:通过时域管状掩码解决帧间信息冗余问题,实现平衡的帧级损失与高质量推理。 轻量高效架构:仅需最小LLM修改,无需外部文本编码器,以48块GPU实现对标千亿参数模型的性能。
总结速览
视频生成效果








解决的问题
架构兼容性:现有自回归视频生成模型与标准LLM架构不兼容,或依赖外部文本编码器,或因逐令牌解码导致高延迟。 时空相关性建模:视频数据具有强时空相关性,现有方法(如1D RoPE)未能有效建模,且3D RoPE存在频谱范围不平衡问题。 训练效率与质量:视频帧间空间信息冗余导致帧间损失不平衡,随机掩码预测效率低下,影响生成质量。
提出的方案
Lumos-1模型:基于LLM架构的轻量修改,实现高效自回归视频生成,无需外部文本编码器。 MM-RoPE:改进的3D旋转位置编码,保留文本RoPE的同时优化视频时空建模,平衡频谱范围与模态位置缩放。 AR-DF(自回归离散扩散强制):通过时域管状掩码(temporal tube masking)解决帧间损失不平衡问题,训练与推理策略一致,避免质量退化。
应用的技术
3D RoPE扩展:将RoPE从1D扩展到3D以建模时空相关性,诊断频谱不平衡后提出MM-RoPE。
令牌依赖策略:帧内双向依赖+帧间时序因果依赖,贴合视频数据特性。 内存高效训练:阶段式训练与GPU内存优化技术,仅用48块GPU预训练模型。
达到的效果:
性能对标SOTA:在GenEval、VBench-I2V/VBench-T2V基准上媲美EMU3、COSMOS-Video2World和OpenSoraPlan。 架构统一性:保留LLM架构,支持多模态(文本+视频)生成与理解。 高效生成:通过AR-DF和MM-RoPE提升训练效率与生成质量,避免高延迟。
Lumos-1
Lumos-1的设计理念:首先介绍MM-RoPE,它使LLM能够更好地感知时空以建模视觉数据。接着介绍AR-DF,它实现了有效的训练和推理。最后介绍实现Lumos-1的关键技术,包括架构、内存友好技术等。
通过MM-RoPE注入时空相关性
3D RoPE的初步设计。当代LLM的一个实际设计是RoPE技术,其总体目标是通过旋转矩阵编码绝对位置,同时在注意力机制中融入显式的相对位置依赖关系。这可以表示为:

其中, 为嵌入 编码位置 以获取查询特征( 的定义类似); 是定义查询向量与键向量内积的函数,显式编码相对位置 。函数 的结果形式可表示为:

其中, 是投影矩阵; 是具有预定义参数 的旋转矩阵,其中 作为嵌入的维度, 作为基频。在此公式下,注意力计算可重写为:

其中, 的详细公式可通过基础旋转矩阵 表示,其中 为频率, 为相对位置。

然而,考虑到视觉标记的时空相关性,将原始RoPE应用于视觉数据建模仍不够理想。扩散模型这一流行生成模型通过提出3D RoPE改进该技术,在注意力计算中联合注入时空潜在坐标,并证明了其有效性。若我们稍作符号简化,将和表示为和,则可基于3D RoPE将公式(1)的注意力计算表示为:

其中,和表示编码时间、高度和宽度相对位置的起始和结束维度索引;表示从中提取行索引为的子矩阵;其他矩阵类似定义。
3D RoPE的初步探索。首先将3D RoPE引入自回归视频生成进行初步探索。由于验证损失与评估指标强相关,用它来观察效果。默认使用交叉熵损失(C-Loss),遵循标准LLM训练目标。如下图2所示,比较了原始LLM RoPE与三种方案:
方案1将前1/2通道分配给全局位置编码(即全局序列索引),后1/2通道以2:3:3比例分配时间、高度和宽度位置。文本标记仅使用前半通道编码全局位置以保证语言建模能力,视觉标记仅使用后半编码3D位置; 方案2扩展方案1,利用视觉标记前半通道额外编码全局位置; M-RoPE使用视觉标记全部通道编码3D位置。

下图3(a)显示:
通过比较原始RoPE与方案1,时空相关性注入显著提升模型拟合能力; 为视觉标记注入光栅扫描顺序位置信息(方案2的全局位置)会降低性能; 全通道利用(M-RoPE)优于部分通道利用(方案1)。因此,在此生成模型中注入此类先验具有前景。

剖析3D RoPE及其局限性。尽管3D RoPE实践有效,但其设计仍非最优。图3(b)可视化频率如何分配给时间、高度和宽度维度:时间通道主导高频段,而高度和宽度通道被分配至近零频率。对于正弦函数,相对位置τ(当τ≥0)不应超过一个周期以避免歧义,因为超过2π弧度会导致函数模式重复。超出此范围,模型无法区分细粒度位置差异。低索引通道的嵌入旋转速度显著快于高索引通道(图3(c)),导致加速混叠和嵌入唯一性丧失;高索引通道旋转过慢,缺乏足够分辨率建模细微局部变化。此外,高度和宽度虽对称重要,却占据不成比例的小且不同的频段,削弱其捕捉空间细节的能力。
MM-RoPE:分布式缩放3D RoPE机制。为优雅解决上述限制,本文提出MM-RoPE——分布式3D RoPE机制。相比视觉语言模型广泛采用的M-RoPE,MM-RoPE核心思想是为所有3D信息在全面频谱范围内编码相对位置。如前面图2(b)所示,MM-RoPE中文本标记的RoPE遵循标准LLM设计,而视觉标记的RoPE由多个元MM-RoPE组件构成。每个元MM-RoPE内保持3D信息比例与3D RoPE相同(即2:3:3),同时最小化总维度以维持分布式设计。具体而言,我们首先分配时间信息通道,然后对称交错高度和宽度通道建模空间信息。首个元MM-RoPE的注意力计算可表述为

其中每个元MM-RoPE组件包含16个通道;其他组件类似定义,共同构成视觉标记的RoPE策略。
此外,对于联合处理文本和视觉标记的模型,两种模态间的相互作用对确保视觉-语言对齐至关重要。然而,表示文本或视觉数据的位置范围往往不同。尽管视觉数据的潜在分辨率较低(例如448×256×25的视频经过8×8×4压缩后变为56×32×7),当代视觉生成系统通常使用极长描述性标题进行训练。为平衡两种模态,本文提出缩放3D位置以确保均衡学习。具体而言,我们通过乘以压缩比将潜在3D位置经验性地缩放至RGB空间,如下图5(a)所示。这一简单缩放操作从另一角度通过略微加快旋转速度提升了视觉标记的RoPE分辨率。实验部分证明其有效性,从而表明从RoPE角度平衡两种模态的重要性。

然而鉴于视频的自回归生成特性,这种缩放可能并非最优解。更先进的解决方案留待未来工作。
自回归离散扩散强制
最朴素的生成范式(即下一标记预测)存在生成效率低下的问题,使其不适用于自回归视觉生成。本文采用离散扩散技术生成视觉内容,并结合时序因果依赖实现时序自回归生成范式。但由于Lumos-1的自回归特性,原始随机掩码(全局随机掩码)或时序独立掩码(扩散强制)均会导致显著的损失不平衡——后期帧的视觉标记往往具有更低损失。由于在充足历史帧上下文条件下预测帧的任务难度远低于根据文本提示预测首帧或根据首帧预测第二帧,模型会倾向于优化更简单任务,导致时序学习退化。
训练方案。为解决该问题,本文基于视频的基本特性——空间信息冗余展开研究。训练期间损失不平衡的核心问题源于空间信息泄漏。值得注意的是,采用扩散强制的原始视频扩散Transformer未遭遇此问题,因其使用双向依赖。面对这一挑战,我们提出自回归离散扩散强制(AR-DF),该技术在自回归视频生成训练中采用时域管状掩码。对每个视频随机生成首帧掩码模式,并将该模式重复应用于后续帧。若将多模态标记序列表示为文本标记和视觉标记的组成,并采样掩码比率,则AR-DF中的训练掩码策略可表述为:

其中和分别表示单个潜在帧的标记数和中的潜在帧数;表示第帧的视觉标记;表示为训练准备的掩码多模态标记序列;表示哈达玛积;表示掩码模式;[MASK]表示掩码标记。准备完标记序列后,将其输入模型处理。为确保与当代LLMs的一致性及视频中的时序因果性,我们采用时序因果掩码进行注意力处理,如图5(b)所示。训练时使用交叉熵损失,并仅在未掩码标记上计算损失,记为,其中为模型处理后的标记序列。算法形式化见算法1。

推理方案。经过AR-DF训练后,最朴素的推理方案(即自回归生成视频帧)会导致显著的帧质量和运动退化。我们观察到这是由于推理与训练不一致所致:训练时后续帧始终能部分观测历史帧,而推理阶段未对齐该观测模式。因此,给定标题时,我们首先生成首帧(通过多步运行),然后随机替换生成图像中预定比例的标记为[MASK]标记。基于此部分观测图像推断模型,并缓存该图像的Keys和Values以实现快速推理。重复此过程直至生成完整视频。算法形式化见算法2。

实现
架构
Lumos-1架构遵循Llama,默认集成RMSNorm和SwiGLU。为稳定训练,本文采用Chameleon的查询-键归一化(QK-Norm)。模型包含三个规模(0.5B/1B/3B),架构细节见附录。注意快速消融研究使用0.5B版本。
标记器
为统一视觉与文本标记处理,采用Cosmos标记器的离散版本,实现8×8×4的时空压缩率。文本标记保留Chameleon的文本标记器。因此Lumos-1总码本大小为129,536(65,536文本标记+64,000视觉标记)。
序列格式化
视觉标记与文本标记在序列中间隔排列,文本标记指定元数据(包括文本提示、视频分辨率、帧率及帧数)。借此设计,本文无需调整尺寸即可训练不同宽高比的图像和视频。
GPU内存友好实现
默认使用Flash Attention加速注意力计算,降低Lumos-1训练和推理时的内存开销。此外,观察到大型码本训练时GPU内存消耗显著,因此取消语言相关损失(如文本的下一标记预测),将最终logit矩阵尺寸缩减至仅匹配视觉标记。虽然文本标记嵌入(将文本索引映射为嵌入)仍可训练,此举使模型聚焦视频生成。若目标为支持语言模态的统一模型,可重新添加该损失。最后,针对129K标记类型的损失计算存在极高内存消耗(易引发内存溢出),采用分块交叉熵损失:通过上转型并逐块计算softmax logits,保持完整softmax精度。默认分块大小为2,000,显著降低峰值内存使用。
分阶段训练
鉴于Lumos-1的自回归特性,视频生成训练可分为两项能力:1) 文本到图像;2) 单图/多图到视频。尽管AR-DF训练大幅缓解学习不平衡问题,仍观察到后者任务相对更易。因此需分阶段训练确保视频生成成功:
专用文本到图像训练(256p分辨率) 图像-视频联合训练(256p分辨率) 联合训练(384p分辨率视觉数据)
实验
实验细节
数据集:
图像数据集:6,000万张(保留原始宽高比) 视频数据集:1,000万段(剪辑为25帧/段)
训练、推理与评估:
优化器:Adam(权重衰减0.1,,) AR-DF训练掩码比 AR-DF推理默认使用分类器无关引导(CFG),掩码比 单潜在帧生成步数 GenEval评估时使用Qwen 32B重写标题;VBench评估默认使用官方长标题
视觉生成对比
文本到图像生成(下表1):
优于同规模扩散模型(如SD-XL),媲美FLUX 自回归模型中媲美EMU3,且离散扩散推理效率显著更高 在位置/属性绑定任务中表现优异,证明无需文本预训练即可实现卓越语言理解与视觉-语言对齐

图像到视频生成(下表2):
未专门训练该任务,但通过指定首帧实现 超越VideoCrafter-I2V,媲美数据量(1亿>1千万)和算力(1万张H100>48张H20)远超的COSMOS-Video2World

文本到视频生成(下表3):
尽管采用离散标记器,仍媲美OpenSoraPlan等扩散模型(且无需笨重预训练文本编码器) 自回归特性通过首帧质量保障视频质量,在物体中心指标(物体类别与颜色)上表现突出

分析与消融研究
定性视觉对比
本文在下图6中将Lumos-1与主流视频生成方法进行对比。对于文本到视频(T2V),我们的384p视频在视觉质量上不逊色于LTX-Video的512p视频。在提供的案例中,Lumos-1生成了更自然的运动(水波)且更贴合提示词(穿红色衣服的滑雪者和波浪)。对于图像到视频(I2V),Lumos-1在多物体(示例1中的多个漂浮热气球)和细粒度运动(示例3中海岸线周围的细微涟漪)处理上显著优于Stable Video DiffusionSVD),后者仅生成全局相机运动。在示例2中,SVD产生了明显模糊,而Lumos-1实现了物体的平滑动画。更多可视化结果见附录。

AR-DF训练中时序管掩码的有效性
在图7(a)中,比较了使用全局随机掩码和时序管掩码时的逐帧验证损失(帧0、3、6)。训练掩码比例均按MAR设置为0.7。对于随机掩码,帧6的损失迅速下降并低于较早帧。这种急剧下降表明存在显著的信息泄漏:模型可以通过关注相邻帧中未掩码的标记来重建掩码标记,而非建模真实的时序动态,使得任务过于简单。对于时序管掩码,帧6的难度最高,因为相同空间位置的像素在时间轴上全部被掩码,消除了随机掩码的捷径。随着迭代进行,帧间差距逐渐缩小并最终趋于平稳,证明模型学会了通过时间传播信息而非复制信息。
AR-DF推理掩码的作用及对的敏感性
AR-DF在推理时需要保持与训练相同的部分上下文掩码;省略这些掩码会严重损害质量。在下图8(b)中,我们观察到“无推理掩码”设置会产生可见伪影和闪烁,而使用掩码则能保持连贯性。在图8(a)中,选取VBench中的两个指标(成像质量和动态程度)定量评估的影响。在0.3至0.7之间的广阔平台区域可生成平滑、视觉愉悦的视频。当低于0.3时,上下文不足会导致模型在运动和单帧质量上均退化,从而推高动态程度值。当高于0.7时,过度掩码会破坏时序连续性,同样推高动态程度值。我们经验性地将设为0.7以确保明显运动。

MM-RoPE的有效性。下图7(b)展示了0.5B模型在四种RoPE设置下的验证损失。需注意,M-RoPE表示两种设计均被移除。可以观察到,MM-RoPE始终收敛更快且稳定在最低损失,证实了其对细粒度时空信息建模的优势。尽管单独移除任一组件均会提高损失,但移除分布式设计的负面影响大于移除缩放位置设计,表明全面的频率分配是主导因素。同时移除两种增强会导致最慢收敛和最高平台期,说明这两种机制在高效视频生成中具有互补性。

MM-RoPE中元MM-RoPE数量的影响。MM-RoPE将嵌入通道划分为若干元组。更多元组意味着某一类信息(时间、高度或宽度)能获得更广谱的频率建模。下图9(a)绘制了0.5B模型在四种设置下的验证损失:
无分布式设计:沿用此前设计,将前通道分配给时间建模,通道分别分配给高度和宽度建模; 元MM-RoPE数量=1:配置一个64通道的元MM-RoPE,同时保持时间、高度和宽度建模的比例(2:3:3)。此变体通过交错高度和宽度通道提升了两个空间维度的频谱范围; 元MM-RoPE数量=2:配置两个32通道的元MM-RoPE,进一步扩展时间、高度和宽度信息的频谱范围; 元MM-RoPE数量=4(默认设计):每个元MM-RoPE保持最小通道数(16通道),使时间、高度或宽度维度的频谱覆盖最全面。
结果证实,通过增加元MM-RoPE数量拓宽各维度频谱,能显著提升时空建模和整体训练效率。

MM-RoPE中缩放因子的影响。上图9(b)展示了MM-RoPE中时间、高度和宽度位置信息建模缩放因子变化时的验证损失曲线。两个明显趋势:从→→逐步降低曲线,但进一步扩大至或无额外增益,因三条曲线在训练中几乎重合。因此,中等缩放足以平衡视觉-语言范围并充分发挥高分辨率RoPE的优势,同时避免不必要的频率膨胀。故采用作为MM-RoPE的默认缩放。
MM-RoPE的推理开销分析。与M-RoPE类似,MM-RoPE需定位视觉标记起始位置后应用RoPE机制,需少量计算。表4对比了使用标准1D RoPE、M-RoPE和MM-RoPE生成图像和视频的推理速度。可观察到:1)相比1D RoPE,引入3D先验仅增加3.5%-4.1%推理延迟;2)相比M-RoPE,MM-RoPE未引入额外延迟。

CFG缩放的敏感性分析。前面图7(c)使用1B模型研究了引导缩放对GenEval的影响。发现缩放值在13至16(默认值)区间内效果良好。
对宽高比的鲁棒性。尽管训练数据宽高比多为7:4,但表5显示Lumos-1 1B因统一码本设计能很好适应不同宽高比的视觉生成。

结论
Lumos-1,一种利用LLM架构的自回归视频生成模型。本文提出MM-RoPE以改进时空动态建模,并提出AR-DF以在考虑帧内双向性和帧间时序因果性的前提下实现高效训练与推理。期待Lumos-1成为构建基础统一模型的重要一步。
参考文献
[1] Lumos-1: On Autoregressive Video Generation from a Unified Model Perspective
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
