打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,
用心写好每一篇文章!
项目主页-https://cumulo-autumn.github.io/StreamDiT/
论文链接-https://arxiv.org/pdf/2507.03745
代码链接-未开源

01-StreamDiT核心优势
本文提出了一种流媒体视频生成模型StreamDiT。StreamDiT通过添加移动缓冲区进行流匹配训练。作者设计了具有不同缓冲帧分区方案的混合训练,从而提高内容一致性和视觉质量。
StreamDiT建模基于adaLN DiT,具有不同的时间嵌入和窗口注意力。作者训练了一个具有4B参数的StreamDiT模型。
此外,作者提出了一种为StreamDiT量身定制的多步蒸馏方法。在所选分配方案的每个部分进行取样蒸馏。蒸馏后,功能评估(NFE)的总数减少到缓冲液中的块数。
该蒸馏模型在单个H100 GPU上达到了16 FPS的实时性能,可以生成512p分辨率的视频流。
02-StreamDiT变现场景
03-StreamDiT基本原理

StreamDiT是专门为实现实时响应性和交互性而设计的,其推理管道也相应地进行了结构化。上图展示了该方法的整体推理流程。
首先,在主线程(线程1)中,系统执行去噪操作,重新填充流队列,并从队列中发出去噪的视频帧,将其转发到单独的解码器线程(线程2)。
然后,该解码器线程并发运行,将潜在视频帧解码为实际视频帧。
接着,实时渲染这些生成的帧,使用户能够立即观察到变化。
最后,提示回调函数在另一个线程(线程3)上持续运行,实时监听新用户提示。
04-StreamDiT性能评估


关注我,AI热点早知道,AI算法早精通,AI产品早上线!

禁止私自转载,需要转载请先征求我的同意!
欢迎你的加入,让我们一起交流、讨论与成长!