终于!SGLang支持Diffusion:加速视频和图像生成 (实测书小生表情包生成)

机智流 2025-11-08 09:00

一觉醒来看到了 SGLang 支持了 Diffusion 系列模型的部署,非常激动!

终于!SGLang支持Diffusion:加速视频和图像生成 (实测书小生表情包生成)图1

先来看看使用 SGLang部署Qwen-Image-Edit 使用下面的命令生成 “书生抱着 SGLang 广告牌”的效果图。

sglang generate \
   --prompt="图片中的书生抱着 SGLang 的广告牌”" --image-path="https://cdn.vansin.top/cute_intern.png" --model-path=Qwen/Qwen-Image-Edit \
   --width=1024 --height=1024 --save-output

耗时 102 秒,后面可以批量生成「书小生」表情包创意,书小生要出圈了。

终于!SGLang支持Diffusion:加速视频和图像生成 (实测书小生表情包生成)图2

接下来我们来看看官方博客内容

https://lmsys.org/blog/2025-11-07-sglang-diffusion/

我们很高兴推出 SGLang Diffusion,它将 SGLang 的最先进性能带入扩散模型的图像与视频生成加速。SGLang Diffusion 支持主要的开源视频和图像生成模型(Wan、Hunyuan、Qwen-Image、Qwen-Image-Edit、Flux),同时通过多种 API 入口(兼容 OpenAI 的 API、CLI、Python 接口)提供快速推理速度和易用性。SGLang Diffusion 在各种工作负载上实现了 1.2x–5.9x 的加速。我们与 FastVideo 团队合作,提供从后训练到生产部署的完整扩散模型生态系统。代码可在此获取。

终于!SGLang支持Diffusion:加速视频和图像生成 (实测书小生表情包生成)图3SGL Diffusion 在 H100 GPU 上的性能基准

为什么在 SGLang 中使用扩散?

随着扩散模型成为最先进的图像和视频生成的基石,我们听到了社区强烈的需求,希望将 SGLang 标志性的性能和无缝的用户体验带到这些新模态中。我们构建了 SGLang Diffusion 来响应这一呼声,提供一个统一的、高性能的引擎,既适用于语言任务,也适用于扩散任务。

这种统一的方法至关重要,因为生成的未来在于结合不同架构。开创性的模型已经在融合自回归(AR)和扩散方法的优势——从像字节跳动的 Bagel 和 Meta 的 Transfusion 这类用单个 transformer 同时处理两种任务的模型,到 NVIDIA 的 Fast-dLLM v2,该模型将 AR 模型改造为并行生成。

SGLang Diffusion 旨在成为一种面向未来的高性能解决方案,准备为这些创新系统提供动力。

Architecture 架构

SGLang Diffusion 专为性能与灵活性而设计,构建在经受过考验的 SGLang 服务架构之上。它继承了强大的 SGLang 调度器,并重用高度优化的 sgl-kernel,以实现最大效率。

在核心上,我们的架构旨在适应现代扩散模型的多样化结构。我们引入了 ComposedPipelineBase ,一种灵活的抽象,用来编排一系列模块化的 PipelineStage 。每个阶段封装了一个通用的扩散功能——例如在 DenoisingStage 中的去噪循环或在 DecodingStage 中的 VAE 解码——使开发者能够轻松地组合和重用这些组件,以构建复杂的、定制化的流水线。

为了实现最先进的速度,我们整合了先进的并行技术。其在核心 Transformer 块中支持统一序列并行(USP)——一种 Ulysses-SP 与 Ring-Attention 的组合,同时对于其他模型组件支持 CFG 并行和张量并行(TP)。

为了加速开发并培育一个强大的生态系统,我们的系统建立在 FastVideo 的增强分支之上,并且与他们的团队密切合作。 这种合作使 SGLang Diffusion 能专注于提供尖端的推理速度,而 FastVideo 则为诸如模型蒸馏等与训练相关的任务提供全面支持。

Model Support 模型支持

我们支持多种流行的开源视频和图像生成模型,包括:

视频模型:Wan 系列、FastWan、混元(Hunyuan)

图像模型:Qwen-Image、Qwen-Image-Edit、Flux

终于!SGLang支持Diffusion:加速视频和图像生成 (实测书小生表情包生成)图4

视频模型

终于!SGLang支持Diffusion:加速视频和图像生成 (实测书小生表情包生成)图5

图片生模型

终于!SGLang支持Diffusion:加速视频和图像生成 (实测书小生表情包生成)图6

使用

为了提供无缝的用户体验,我们提供了一套熟悉的界面,包括命令行界面(CLI)、Python 引擎 API 以及兼容 OpenAI 的 API,允许用户以最小的工作量将扩散生成集成到他们的工作流程中。

Install 安装

SGLang Diffusion 可以通过多种方式安装:

# with pip or uv
uv pip install 'sglang[diffusion]' --prerelease=allow

#
 from source
git clone https://github.com/sgl-project/sglang.git
cd sglang
uv pip install -e "python[diffusion]" --prerelease=allow

CLI 命令行界面

启动服务器,然后发送请求:

sglang serve --model-path black-forest-labs/FLUX.1-dev

curl -s -D >(grep -i x-request-id >&2) \
  -o >(jq -r '.data[0].b64_json' | base64 --decode > meme.png) \
  -X POST "$OPENAI_API_BASE/images/edits" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -F "model=Qwen/Qwen-Image-Edit" \
  -F "image[]=@example.jpg" \
  -F 'prompt=Create a meme based on image provide'

或者,在不启动服务器的情况下生成图像:

sglang generate --model-path black-forest-labs/FLUX.1-dev \
  --prompt "A Logo With Bold Large Text: SGL Diffusion" \
  --save-output
  

Demo 演示 (Image to Image: Qwen-Image-Edit)

sglang generate \
   --prompt="图片中的书生抱着 SGLang 的广告牌”" --image-path="https://cdn.vansin.top/cute_intern.png" --model-path=Qwen/Qwen-Image-Edit \
   --width=1024 --height=1024 --save-output
终于!SGLang支持Diffusion:加速视频和图像生成 (实测书小生表情包生成)图7

性能基准

我们将 SGLang Diffusion 的性能与一个流行的开源基线 Huggingface Diffuser 进行了基准测试。正如本帖顶部图表所示,SGLang Diffusion 提供了最先进的性能,显著加速了图像和视频的生成。

Roadmap and Diffusion Ecosystem

我们的愿景是与 FastVideo 团队合作,构建一个全面的扩散生态系统,提供从模型训练到高性能推理的端到端解决方案。

SGLang Diffusion 团队以持续在性能和模型支持方面创新为核心:

  • 模型支持与优化
    • 优化 Wan、FastWan、混元、Qwen-Image 系列、FLUX
    • 支持 LongCat-Video
  • 内核支持与融合
    • Quantization kernels
    • Rotary embedding kernels
    • 在 sgl-kernel 中为 Blackwell 集成 Flash Attention 4
  • 更多服务器功能
    • 可配置的云存储上传已生成的文件
    • Batching support
    • More parallelism methods
    • 量化
  • 总体架构
    • 简化对新模型支持的工作量
    • 增强缓存和注意力后端支持

构建这个生态系统是一个社区的共同努力,我们欢迎并鼓励各种形式的贡献。加入我们,共同塑造开源扩散生成的未来。

终于!SGLang支持Diffusion:加速视频和图像生成 (实测书小生表情包生成)图8

感谢 SGLang,小编完成了人生第一次部署 Image To Image 模型,书小生表情包生成启动!!!

等 omni 全模态的模型架构收敛的差不多感觉 SGLang 也要全力支持 omni 模型部署了,期待一波!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
美国学者承认:中国稀土体系让全球新能源与芯片产业彻底离不开中国供应链
存储芯片大涨,背后的逻辑是什么?
刚刚!芯片巨头,突然暴涨!
2025年中国液冷数据中心产业链图谱及投资布局分析
融资超20亿,这家“非GPU”芯片公司跻身国产AI算力第一梯队
暴跌4900亿!日本对华芯片制裁遭“反噬”,外媒:更可怕的还在后头
氮矽累计推出两款GaN PIIP低压氮化镓芯片,有效简化电源系统设计
20.67亿元!射频芯片大厂启动申购
算力狂飙下的“能效”革命:英诺达如何用国产EDA给AI芯片“降功耗”?
估值7.5亿美元初创意欲「撬动」8000亿半导体市场?前谷歌AlphaChip主导者创业研发「AI芯片设计自动化」
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号