RhymeFlow团队投稿
量子位 | 公众号 QbitAI
生成一段81帧720p视频,要等将近17分钟。
这是当前主流DiT视频模型(Wan 2.1、CogVideoX、Sora)绕不开的痛点:3D时空注意力的二次方复杂度,让高清视频生成的计算成本高得离谱。
现有的稀疏注意力、KV缓存、量化等加速方法,优化的都是单步内的计算量。但没人去动那个更根本的问题——所有帧被一视同仁,哪怕相邻帧内容几乎完全相同,也要走完完整的50步去噪流程。
清华大学&GigaAI联合提出RhymeFlow:一个完全训练免费的视频生成加速框架,开创帧间异步调度这一全新加速维度。

核心洞察是:视频的语义和运动是连续的,关键帧决定全局结构,非关键帧的轨迹高度可预测。既然如此,为什么不让不同帧各走各的路?
在主流开源模型上的测试显示,推理速度提升1.5×–1.8×,与现有方法叠加后可达1.93×,82人双盲用户研究中62.5%的用户无法与原始模型区分差异。

速度魔咒:计算冗余藏在哪里
以Wan 2.1、CogVideoX为代表的DiT架构视频模型,已经能生成媲美真实拍摄的高清视频。但它们都面临同一个瓶颈:
1、3D时空注意力的二次方复杂度。生成一段81帧720p视频需要近17分钟(单A800 GPU),计算成本随分辨率和帧数急剧膨胀。
2、现有加速方法触及天花板。稀疏注意力、KV缓存、量化,这些方法只能优化单步内的计算量,无法跨步骤、跨帧地压缩冗余。
3、所有帧被一视同仁。哪怕相邻帧内容几乎完全相同,也要走完完整的50步去噪流程,隐藏着巨大的计算浪费。
RhymeFlow的核心洞察正是:视频的语义和运动是连续的,关键帧决定全局结构,非关键帧的轨迹高度可预测。
三个核心设计:让不同帧“各走各的路”
RhymeFlow开创帧间异步调度这一全新加速维度,通过三个相互配合的模块实现。
内容感知的关键帧选择
不是简单均匀采样,而是通过潜空间语义相似度,自动识别包含场景切换、物体运动突变的关键帧。这些帧获得完整的计算资源,确保视频的结构完整性和语义准确性。
渐进式异步去噪调度
关键帧每步都更新,非关键帧按噪声阶段差异化跳步推进:
- 热身阶段(前15步):所有帧同步去噪,打好全局构图和运动基础
- 高噪声阶段(结构敏感):非关键帧每2步更新一次
- 低噪声阶段(细节优化):非关键帧每3步更新一次
- 节奏点同步:定期让所有帧汇合,校准非关键帧轨迹,防止误差累积
潜变量轨迹投影
非关键帧跳步后,中间状态缺失会破坏3D注意力的时间一致性。RhymeFlow用一个计算量可忽略的线性投影模块,基于前后两个已知状态,精准预测中间时刻的潜变量。
效果上,相当于给非关键帧画了一条平滑的运动轨迹,让关键帧在更新时总能看到完整的时间上下文。

实验结果
研究团队在主流开源模型上进行了全面测试。
与SOTA方法对比
- Wan 2.1上:RhymeFlow的PSNR比SAP高1.84,SSIM高0.053,速度相当
- CogVideoX上:以1.78×加速比,保持98.6%的主体一致性
- 与SAP叠加后:加速比进一步提升至1.93×,且质量优于单独使用SAP

82人双盲用户研究
- 53.7%的用户认为RhymeFlow的时间连贯性优于SVG
- 74.4%的用户更偏好RhymeFlow而非SAP
与原始模型对比,62.5%的用户无法区分差异,统计上无显著区别


未来展望
研究团队表示,RhymeFlow只是异步调度范式的开始。未来将探索三个方向:
1、基于强化学习的自适应调度策略。让模型自己决定哪些帧需要更多计算,而非依赖固定规则。
2、引入光流先验。进一步提升大跳步下的时间一致性。
3、扩展到world model、robotics等领域。这些场景对实时性和交互性要求更高,异步调度范式有更大的发挥空间。
论文链接:https://arxiv.org/abs/2604.08370
GitHub仓库:https://github.com/Simon-Dcs/RhymeFlow
项目主页:https://simon-dcs.github.io/Website-of-RhymeFlow/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注AI的学术编辑实习生 🎓

🌟 点亮星标 🌟