清华开源视频生成加速框架:无需重训练,视频生成提速1.8倍,质量几乎无损

量子位 2026-06-12 23:35
RhymeFlow团队投稿
量子位 | 公众号 QbitAI

生成一段81帧720p视频,要等将近17分钟。

这是当前主流DiT视频模型(Wan 2.1、CogVideoX、Sora)绕不开的痛点:3D时空注意力的二次方复杂度,让高清视频生成的计算成本高得离谱。

现有的稀疏注意力、KV缓存、量化等加速方法,优化的都是单步内的计算量。但没人去动那个更根本的问题——所有帧被一视同仁,哪怕相邻帧内容几乎完全相同,也要走完完整的50步去噪流程。

清华大学&GigaAI联合提出RhymeFlow:一个完全训练免费的视频生成加速框架,开创帧间异步调度这一全新加速维度。

清华开源视频生成加速框架:无需重训练,视频生成提速1.8倍,质量几乎无损图1

核心洞察是:视频的语义和运动是连续的,关键帧决定全局结构,非关键帧的轨迹高度可预测。既然如此,为什么不让不同帧各走各的路?

在主流开源模型上的测试显示,推理速度提升1.5×–1.8×,与现有方法叠加后可达1.93×,82人双盲用户研究中62.5%的用户无法与原始模型区分差异。

清华开源视频生成加速框架:无需重训练,视频生成提速1.8倍,质量几乎无损图2

速度魔咒:计算冗余藏在哪里

以Wan 2.1、CogVideoX为代表的DiT架构视频模型,已经能生成媲美真实拍摄的高清视频。但它们都面临同一个瓶颈:

1、3D时空注意力的二次方复杂度。生成一段81帧720p视频需要近17分钟(单A800 GPU),计算成本随分辨率和帧数急剧膨胀。

2、现有加速方法触及天花板。稀疏注意力、KV缓存、量化,这些方法只能优化单步内的计算量,无法跨步骤、跨帧地压缩冗余。

3、所有帧被一视同仁。哪怕相邻帧内容几乎完全相同,也要走完完整的50步去噪流程,隐藏着巨大的计算浪费。

RhymeFlow的核心洞察正是:视频的语义和运动是连续的,关键帧决定全局结构,非关键帧的轨迹高度可预测。

三个核心设计:让不同帧“各走各的路”

RhymeFlow开创帧间异步调度这一全新加速维度,通过三个相互配合的模块实现。

内容感知的关键帧选择

不是简单均匀采样,而是通过潜空间语义相似度,自动识别包含场景切换、物体运动突变的关键帧。这些帧获得完整的计算资源,确保视频的结构完整性和语义准确性。

渐进式异步去噪调度

关键帧每步都更新,非关键帧按噪声阶段差异化跳步推进:

潜变量轨迹投影

非关键帧跳步后,中间状态缺失会破坏3D注意力的时间一致性。RhymeFlow用一个计算量可忽略的线性投影模块,基于前后两个已知状态,精准预测中间时刻的潜变量。

效果上,相当于给非关键帧画了一条平滑的运动轨迹,让关键帧在更新时总能看到完整的时间上下文。

清华开源视频生成加速框架:无需重训练,视频生成提速1.8倍,质量几乎无损图3

实验结果

研究团队在主流开源模型上进行了全面测试。

与SOTA方法对比

清华开源视频生成加速框架:无需重训练,视频生成提速1.8倍,质量几乎无损图4

82人双盲用户研究

清华开源视频生成加速框架:无需重训练,视频生成提速1.8倍,质量几乎无损图5
清华开源视频生成加速框架:无需重训练,视频生成提速1.8倍,质量几乎无损图6

未来展望

研究团队表示,RhymeFlow只是异步调度范式的开始。未来将探索三个方向:

1、基于强化学习的自适应调度策略。让模型自己决定哪些帧需要更多计算,而非依赖固定规则。

2、引入光流先验。进一步提升大跳步下的时间一致性。

3、扩展到world model、robotics等领域。这些场景对实时性和交互性要求更高,异步调度范式有更大的发挥空间。

论文链接:https://arxiv.org/abs/2604.08370
GitHub仓库:https://github.com/Simon-Dcs/RhymeFlow
项目主页:https://simon-dcs.github.io/Website-of-RhymeFlow/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


我们正在招聘一名眼疾手快、关注AI的学术编辑实习生 🎓

感兴趣的小伙伴欢迎关注 👉 

清华开源视频生成加速框架:无需重训练,视频生成提速1.8倍,质量几乎无损图7


🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
谷歌开源26B文本扩散MoE,劈柴:生成速度像赛马一样快
还原Physical AI的全貌!首个聚焦物理交互的具身数据集开源了~
CVPR 2026 | 破解开放世界“语义盲区”:北大和华为团队携手开源大规模OmniVTG数据集,用“自我反思”机制补齐定位短板
Meta 开源 Sapiens2:人体视觉模型进入 5B 参数时代
大晓机器人开源中国家庭全屋3D数据集:30万真实户型、5000个可交互场景,仿真到现实迁移周期大幅缩短
WAM杀入导航了 !首个WorldVLN,全面开源
32B超越671B!M-A-P全开源数学定理证明模型OProver,五项评测三项第一
全球开放!“RISC-V+AI开源生态社区”六大重点开源项目发布!
英伟达力荐,小团队两个月开源一款「光速级」智能体推理引擎
摩尔线程宣布开源MusaCoder:首个国产GPU全栈训练代码大模型!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号