聊聊大模型推理系统之RServe如何实现66%延迟降低与109%吞吐提升？

聊聊大模型推理系统之RServe如何实现66%延迟降低与109%吞吐提升？图1

> 本文由 Intern-S1 等 AI 生成，机智流编辑部校对

在多模态大模型（Large Multimodal Models, LMMs）日益普及的今天，用户对响应速度的要求却愈发严苛。然而，现有推理系统在处理包含图像、视频等多模态数据的请求时，常常因编码模块与语言模型之间的强耦合而陷入性能瓶颈。有没有一种方法，能同时兼顾低延迟与高吞吐？

来自中山大学与小红书的研究团队给出了答案——RServe。这项工作不仅提出了细粒度调度机制，更首次系统性地实现了请求内（intra-request）与请求间（inter-request）的双重流水线并行，在主流 LMM 上实现了最高 66%的延迟降低和109%的吞吐提升。

核心看点

RServe 是一个面向LMM 推理的高效服务系统，其核心突破在于解耦并重叠多模态编码与语言模型前向计算。传统系统必须等待所有图像、音频等多模态数据完成编码后，才能启动语言模型的prefill 阶段（即对整个输入提示进行首次前向计算并生成 KV 缓存），导致显著延迟。RServe 则通过嵌入追踪器（Embedding Tracker）与可调度令牌（Schedulable Tokens）机制，实现“边编码、边计算”，大幅缩短首令牌延迟（TTFT）。该技术已在Qwen2.5-VL系列模型上验证，适用于从单 GPU 到多节点分布式部署的多种场景，为多模态 AI 服务提供了通用且高效的推理底座。

研究背景

当前，LMM 推理普遍采用“编码-预填充-解码”（Encoder-Prefill-Decode, EPD）三阶段流程。其中，多模态编码器（如视觉编码器）负责将图像等非文本数据转换为与文本兼容的嵌入向量，再交由大型语言模型（LLM）处理。然而，高分辨率图像或长视频的编码开销巨大——在某些请求中，编码耗时可占总延迟的 26%以上（见论文图 2），成为性能瓶颈。

尽管已有工作尝试将编码模块与 LLM解耦部署（disaggregation），但它们仍将编码与 prefill 视为严格串行过程，未能挖掘两者间的请求内并行性。与此同时，现代 LLM 服务虽已广泛采用分块流水线并行（Chunked Pipeline Parallelism, CPP）来加速长上下文处理，但这一技术尚未被有效整合进 LMM 的编码-推理协同调度中。RServe 正是瞄准这一空白，提出了一套端到端的调度框架，打通了从多模态输入到文本输出的高效通路。

核心贡献

请求内流水线：细粒度重叠编码与 Prefill

RServe 引入嵌入追踪器，为每个请求动态维护嵌入向量的“就绪状态”。文本嵌入可立即就绪，而多模态嵌入则按编码批次（默认 1024 个令牌）逐步生成。一旦部分嵌入就绪，系统即启动对应片段的 prefill 计算，实现编码与 LLM 前向的流水线重叠。实验表明，仅此一项优化，即可在低负载下将 TTFT 降低 18%~19% （相比 EPD 基线）。

请求间协同调度：基于可调度令牌的动态批处理

为兼顾高吞吐，RServe 提出可调度令牌概念：一个令牌只有在其嵌入就绪且前序令牌已调度时，才可被纳入当前微批次。调度器基于全局令牌预算，动态聚合多个请求的可调度令牌，填满计算单元。这种机制有效避免了因部分请求编码慢而导致的流水线气泡（pipeline bubbles），使系统在高并发下仍保持高资源利用率。

实证效果显著，兼容主流并行策略

在 8×H100 GPU 集群上，针对Qwen2.5-VL-72B模型（2K 图像分辨率），RServe 相比当前主流框架vLLM和gLLM，实现了最高 66%的 TTFT 降低和109%的吞吐提升。更重要的是，其请求内优化与Tensor Parallelism（TP）或Pipeline Parallelism（PP）正交，可无缝集成；而请求间调度则与 CPP 天然契合，进一步放大性能收益。功能测试（如MMMU 基准）也证实，RServe 在加速推理的同时未损失模型精度（得分波动<0.5%）。

行业意义

RServe 的提出，标志着 LMM 服务从“粗粒度串行”迈向“细粒度协同调度”的新阶段。其设计理念与当前大模型服务架构解耦化（如 prefill-decode disaggregation）的趋势高度一致，并进一步将解耦思想延伸至多模态编码层。该技术可直接应用于多模态智能客服、实时视觉问答、自动驾驶多传感器融合推理等对延迟敏感的场景，显著提升用户体验。

同时，通过提升 GPU 利用率与吞吐，RServe 有助于降低单位请求的计算能耗，契合国家“东数西算”与绿色 AI的战略导向。未来，随着多模态 Agent和具身智能的发展，高效 LMM 推理将成为基础设施的关键一环。RServe 所验证的“重叠+调度”范式，有望推动整个行业在多模态大模型服务技术路线上的标准化与优化。

推动多模态 AI 从“能用”走向“好用”，RServe 正加速这一变革。

论文链接：

https://arxiv.org/abs/2509.24381