单卡H100跑4B“流媒体视频模型”->16FPS运行速度+5分钟长视频+512*512分辨率！

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区，

用心写好每一篇文章！

项目主页-https://cumulo-autumn.github.io/StreamDiT/

论文链接-https://arxiv.org/pdf/2507.03745

代码链接-未开源

为什么需要这个算法？--虽然文生视频（T2V）任务取得了巨大进展，可以生成高质量的视频。然而，现有的模型通常只能离线生成短片，这限制了它们在交互式和实时应用程序中的用例。

这个算法能做什么？--本文是UB伯克利的一名学生在Meta实习期间的一项工作。作者提出一种流媒体视频生成模型StreamDiT-4B，它可以在单个GPU上以16 FPS的速度实时生成文本到视频（H100）！

这个算法效果如何？-- 该蒸馏模型在单个H100 GPU上达到了16 FPS的实时性能，可以生成512p分辨率的视频流。该模型支持实时应用，例如流媒体生成、交互式生成和视频到视频。

01-StreamDiT核心优势

本文提出了一种流媒体视频生成模型StreamDiT。StreamDiT通过添加移动缓冲区进行流匹配训练。作者设计了具有不同缓冲帧分区方案的混合训练，从而提高内容一致性和视觉质量。

StreamDiT建模基于adaLN DiT，具有不同的时间嵌入和窗口注意力。作者训练了一个具有4B参数的StreamDiT模型。

此外，作者提出了一种为StreamDiT量身定制的多步蒸馏方法。在所选分配方案的每个部分进行取样蒸馏。蒸馏后，功能评估（NFE）的总数减少到缓冲液中的块数。

该蒸馏模型在单个H100 GPU上达到了16 FPS的实时性能，可以生成512p分辨率的视频流。

02-StreamDiT变现场景

02.01-生成5分钟长视频

与其它方法不同的是，该方法可以在单个H100 GPU上面的生成512分辨率5分钟的长视频。

02.02-StreamDiT-30B视频生成

上面的视频展示了作者该方法应用于30B的视频生成模型上面的生成效果，从而证实其可扩展性！

02.03-多文本切换&视频生成

上面的视频展示了该方法在多文本切换场景下的强大生成能力。它可以平滑的在多个不同的目标之间快速进行切换，例如：将图中的猫转换为老虎，将马变为豹子等。

03-StreamDiT基本原理

StreamDiT是专门为实现实时响应性和交互性而设计的，其推理管道也相应地进行了结构化。上图展示了该方法的整体推理流程。

04-StreamDiT性能评估

04.01-主观效果评估

上面的视频展示了该方法与多个SOTA的长视频生成方法（Reuse and Diffuse、FIFO-Diffusion）在相同的文本提示下的生成效果。通过观察与分析，我们可以发现：与其它基线方法相比，该方法生成的视频更逼真、细节更丰富一些。

04.02-客观指标评估

上图展示了该方法与基线方法的人类评估结果。StreamDiT-4B在单个GPU上实现了16 FPS的实时性能，同时保持了与现有方法竞争的质量。该模型能够生成具有时间一致性和高视觉保真度的512p视频流。

05-StreamDiT效果展示

关注我，AI热点早知道，AI算法早精通，AI产品早上线！

禁止私自转载，需要转载请先征求我的同意！

欢迎你的加入，让我们一起交流、讨论与成长！

若二维码失效：关注公众号--》交流分享--》联系我们