清华开源视频生成加速框架：无需重训练，视频生成提速1.8倍，质量几乎无损

RhymeFlow团队投稿
量子位 | 公众号 QbitAI

生成一段81帧720p视频，要等将近17分钟。

这是当前主流DiT视频模型（Wan 2.1、CogVideoX、Sora）绕不开的痛点：3D时空注意力的二次方复杂度，让高清视频生成的计算成本高得离谱。

现有的稀疏注意力、KV缓存、量化等加速方法，优化的都是单步内的计算量。但没人去动那个更根本的问题——所有帧被一视同仁，哪怕相邻帧内容几乎完全相同，也要走完完整的50步去噪流程。

清华大学&GigaAI联合提出RhymeFlow：一个完全训练免费的视频生成加速框架，开创帧间异步调度这一全新加速维度。

核心洞察是：视频的语义和运动是连续的，关键帧决定全局结构，非关键帧的轨迹高度可预测。既然如此，为什么不让不同帧各走各的路？

在主流开源模型上的测试显示，推理速度提升1.5×–1.8×，与现有方法叠加后可达1.93×，82人双盲用户研究中62.5%的用户无法与原始模型区分差异。

速度魔咒：计算冗余藏在哪里

以Wan 2.1、CogVideoX为代表的DiT架构视频模型，已经能生成媲美真实拍摄的高清视频。但它们都面临同一个瓶颈：

1、3D时空注意力的二次方复杂度。生成一段81帧720p视频需要近17分钟（单A800 GPU），计算成本随分辨率和帧数急剧膨胀。

2、现有加速方法触及天花板。稀疏注意力、KV缓存、量化，这些方法只能优化单步内的计算量，无法跨步骤、跨帧地压缩冗余。

3、所有帧被一视同仁。哪怕相邻帧内容几乎完全相同，也要走完完整的50步去噪流程，隐藏着巨大的计算浪费。

RhymeFlow的核心洞察正是：视频的语义和运动是连续的，关键帧决定全局结构，非关键帧的轨迹高度可预测。

三个核心设计：让不同帧“各走各的路”

RhymeFlow开创帧间异步调度这一全新加速维度，通过三个相互配合的模块实现。

内容感知的关键帧选择

不是简单均匀采样，而是通过潜空间语义相似度，自动识别包含场景切换、物体运动突变的关键帧。这些帧获得完整的计算资源，确保视频的结构完整性和语义准确性。

渐进式异步去噪调度

关键帧每步都更新，非关键帧按噪声阶段差异化跳步推进：

热身阶段（前15步）：所有帧同步去噪，打好全局构图和运动基础
高噪声阶段（结构敏感）：非关键帧每2步更新一次
低噪声阶段（细节优化）：非关键帧每3步更新一次
节奏点同步：定期让所有帧汇合，校准非关键帧轨迹，防止误差累积

潜变量轨迹投影

非关键帧跳步后，中间状态缺失会破坏3D注意力的时间一致性。RhymeFlow用一个计算量可忽略的线性投影模块，基于前后两个已知状态，精准预测中间时刻的潜变量。

效果上，相当于给非关键帧画了一条平滑的运动轨迹，让关键帧在更新时总能看到完整的时间上下文。

实验结果

研究团队在主流开源模型上进行了全面测试。

与SOTA方法对比

Wan 2.1上：RhymeFlow的PSNR比SAP高1.84，SSIM高0.053，速度相当
CogVideoX上：以1.78×加速比，保持98.6%的主体一致性
与SAP叠加后：加速比进一步提升至1.93×，且质量优于单独使用SAP

82人双盲用户研究

53.7%的用户认为RhymeFlow的时间连贯性优于SVG
74.4%的用户更偏好RhymeFlow而非SAP
与原始模型对比，62.5%的用户无法区分差异，统计上无显著区别

未来展望

研究团队表示，RhymeFlow只是异步调度范式的开始。未来将探索三个方向：

1、基于强化学习的自适应调度策略。让模型自己决定哪些帧需要更多计算，而非依赖固定规则。

2、引入光流先验。进一步提升大跳步下的时间一致性。

3、扩展到world model、robotics等领域。这些场景对实时性和交互性要求更高，异步调度范式有更大的发挥空间。

论文链接：https://arxiv.org/abs/2604.08370
GitHub仓库：https://github.com/Simon-Dcs/RhymeFlow
项目主页：https://simon-dcs.github.io/Website-of-RhymeFlow/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注AI的学术编辑实习生 🎓

感兴趣的小伙伴欢迎关注 👉

清华开源视频生成加速框架：无需重训练，视频生成提速1.8倍，质量几乎无损图7

🌟 点亮星标 🌟

科技前沿进展每日见

RhymeFlow团队投稿量子位 | 公众号 QbitAI