终于！SGLang支持Diffusion：加速视频和图像生成 (实测书小生表情包生成)

一觉醒来看到了 SGLang 支持了 Diffusion 系列模型的部署，非常激动！

先来看看使用 SGLang部署Qwen-Image-Edit 使用下面的命令生成 “书生抱着 SGLang 广告牌”的效果图。

sglang generate \
   --prompt="图片中的书生抱着 SGLang 的广告牌”" --image-path="https://cdn.vansin.top/cute_intern.png" --model-path=Qwen/Qwen-Image-Edit \
   --width=1024 --height=1024 --save-output

耗时 102 秒，后面可以批量生成「书小生」表情包创意，书小生要出圈了。

终于！SGLang支持Diffusion：加速视频和图像生成 (实测书小生表情包生成)图2

接下来我们来看看官方博客内容

https://lmsys.org/blog/2025-11-07-sglang-diffusion/

我们很高兴推出 SGLang Diffusion，它将 SGLang 的最先进性能带入扩散模型的图像与视频生成加速。SGLang Diffusion 支持主要的开源视频和图像生成模型（Wan、Hunyuan、Qwen-Image、Qwen-Image-Edit、Flux），同时通过多种 API 入口（兼容 OpenAI 的 API、CLI、Python 接口）提供快速推理速度和易用性。SGLang Diffusion 在各种工作负载上实现了 1.2x–5.9x 的加速。我们与 FastVideo 团队合作，提供从后训练到生产部署的完整扩散模型生态系统。代码可在此获取。

终于！SGLang支持Diffusion：加速视频和图像生成 (实测书小生表情包生成)图3 SGL Diffusion 在 H100 GPU 上的性能基准

为什么在 SGLang 中使用扩散？

随着扩散模型成为最先进的图像和视频生成的基石，我们听到了社区强烈的需求，希望将 SGLang 标志性的性能和无缝的用户体验带到这些新模态中。我们构建了 SGLang Diffusion 来响应这一呼声，提供一个统一的、高性能的引擎，既适用于语言任务，也适用于扩散任务。

这种统一的方法至关重要，因为生成的未来在于结合不同架构。开创性的模型已经在融合自回归（AR）和扩散方法的优势——从像字节跳动的 Bagel 和 Meta 的 Transfusion 这类用单个 transformer 同时处理两种任务的模型，到 NVIDIA 的 Fast-dLLM v2，该模型将 AR 模型改造为并行生成。

SGLang Diffusion 旨在成为一种面向未来的高性能解决方案，准备为这些创新系统提供动力。

Architecture 架构

SGLang Diffusion 专为性能与灵活性而设计，构建在经受过考验的 SGLang 服务架构之上。它继承了强大的 SGLang 调度器，并重用高度优化的 sgl-kernel，以实现最大效率。

在核心上，我们的架构旨在适应现代扩散模型的多样化结构。我们引入了 ComposedPipelineBase ，一种灵活的抽象，用来编排一系列模块化的 PipelineStage 。每个阶段封装了一个通用的扩散功能——例如在 DenoisingStage 中的去噪循环或在 DecodingStage 中的 VAE 解码——使开发者能够轻松地组合和重用这些组件，以构建复杂的、定制化的流水线。

为了实现最先进的速度，我们整合了先进的并行技术。其在核心 Transformer 块中支持统一序列并行（USP）——一种 Ulysses-SP 与 Ring-Attention 的组合，同时对于其他模型组件支持 CFG 并行和张量并行（TP）。

为了加速开发并培育一个强大的生态系统，我们的系统建立在 FastVideo 的增强分支之上，并且与他们的团队密切合作。这种合作使 SGLang Diffusion 能专注于提供尖端的推理速度，而 FastVideo 则为诸如模型蒸馏等与训练相关的任务提供全面支持。

Model Support 模型支持

我们支持多种流行的开源视频和图像生成模型，包括：

视频模型：Wan 系列、FastWan、混元（Hunyuan）

图像模型：Qwen-Image、Qwen-Image-Edit、Flux

终于！SGLang支持Diffusion：加速视频和图像生成 (实测书小生表情包生成)图4

视频模型

终于！SGLang支持Diffusion：加速视频和图像生成 (实测书小生表情包生成)图5

图片生模型

终于！SGLang支持Diffusion：加速视频和图像生成 (实测书小生表情包生成)图6

使用

为了提供无缝的用户体验，我们提供了一套熟悉的界面，包括命令行界面（CLI）、Python 引擎 API 以及兼容 OpenAI 的 API，允许用户以最小的工作量将扩散生成集成到他们的工作流程中。

Install 安装

SGLang Diffusion 可以通过多种方式安装：

# with pip or uv
uv pip install 'sglang[diffusion]' --prerelease=allow

# from source
git clone https://github.com/sgl-project/sglang.git
cd sglang
uv pip install -e "python[diffusion]" --prerelease=allow

CLI 命令行界面

启动服务器，然后发送请求：

sglang serve --model-path black-forest-labs/FLUX.1-dev

curl -s -D >(grep -i x-request-id >&2) \
  -o >(jq -r '.data[0].b64_json' | base64 --decode > meme.png) \
  -X POST "$OPENAI_API_BASE/images/edits" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -F "model=Qwen/Qwen-Image-Edit" \
  -F "image[]=@example.jpg" \
  -F 'prompt=Create a meme based on image provide'

或者，在不启动服务器的情况下生成图像：

sglang generate --model-path black-forest-labs/FLUX.1-dev \
  --prompt "A Logo With Bold Large Text: SGL Diffusion" \
  --save-output

Demo 演示（Image to Image: Qwen-Image-Edit）

sglang generate \
   --prompt="图片中的书生抱着 SGLang 的广告牌”" --image-path="https://cdn.vansin.top/cute_intern.png" --model-path=Qwen/Qwen-Image-Edit \
   --width=1024 --height=1024 --save-output