单卡H100跑4B“流媒体视频模型”->16FPS运行速度+5分钟长视频+512*512分辨率!

AI产品汇 2025-07-09 07:45

    打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



项目主页-https://cumulo-autumn.github.io/StreamDiT/

论文链接-https://arxiv.org/pdf/2507.03745

代码链接-未开源



为什么需要这个算法?--虽然文生视频(T2V)任务取得了巨大进展,可以生成高质量的视频。然而,现有的模型通常只能离线生成短片,这限制了它们在交互式和实时应用程序中的用例。
这个算法能做什么?--本文是UB伯克利的一名学生在Meta实习期间的一项工作。作者提出一种流媒体视频生成模型StreamDiT-4B,它可以在单个GPU上以16 FPS的速度实时生成文本到视频(H100)!
这个算法效果如何?-- 该蒸馏模型在单个H100 GPU上达到了16 FPS的实时性能,可以生成512p分辨率的视频流。该模型支持实时应用,例如流媒体生成、交互式生成和视频到视频。



01-StreamDiT核心优势

    本文提出了一种流媒体视频生成模型StreamDiT。StreamDiT通过添加移动缓冲区进行流匹配训练。作者设计了具有不同缓冲帧分区方案的混合训练,从而提高内容一致性和视觉质量。

    StreamDiT建模基于adaLN DiT,具有不同的时间嵌入和窗口注意力。作者训练了一个具有4B参数的StreamDiT模型。

    此外,作者提出了一种为StreamDiT量身定制的多步蒸馏方法。在所选分配方案的每个部分进行取样蒸馏。蒸馏后,功能评估(NFE)的总数减少到缓冲液中的块数。

    该蒸馏模型在单个H100 GPU上达到了16 FPS的实时性能,可以生成512p分辨率的视频流。

02-StreamDiT变现场景

02.01-生成5分钟长视频
    与其它方法不同的是,该方法可以在单个H100 GPU上面的生成512分辨率5分钟的长视频。
02.02-StreamDiT-30B视频生成
    上面的视频展示了作者该方法应用于30B的视频生成模型上面的生成效果,从而证实其可扩展性!
02.03-多文本切换&视频生成
    上面的视频展示了该方法在多文本切换场景下的强大生成能力。它可以平滑的在多个不同的目标之间快速进行切换,例如:将图中的猫转换为老虎,将马变为豹子等。

03-StreamDiT基本原理

    StreamDiT是专门为实现实时响应性和交互性而设计的,其推理管道也相应地进行了结构化。上图展示了该方法的整体推理流程。

  • 首先,在主线程(线程1)中,系统执行去噪操作,重新填充流队列,并从队列中发出去噪的视频帧,将其转发到单独的解码器线程(线程2)。

  • 然后,该解码器线程并发运行,将潜在视频帧解码为实际视频帧。

  • 接着,实时渲染这些生成的帧,使用户能够立即观察到变化。

  • 最后,提示回调函数在另一个线程(线程3)上持续运行,实时监听新用户提示。

04-StreamDiT性能评估

04.01-主观效果评估
    上面的视频展示了该方法与多个SOTA的长视频生成方法(Reuse and Diffuse、FIFO-Diffusion)在相同的文本提示下的生成效果。通过观察与分析,我们可以发现:与其它基线方法相比,该方法生成的视频更逼真、细节更丰富一些。
04.02-客观指标评估
    上图展示了该方法与基线方法的人类评估结果。StreamDiT-4B在单个GPU上实现了16 FPS的实时性能,同时保持了与现有方法竞争的质量。该模型能够生成具有时间一致性和高视觉保真度的512p视频流。
05-StreamDiT效果展示



关注我,AI热点早知道,AI算法早精通,AI产品早上线!



禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
媒体
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号