聊聊大模型推理系统之RServe如何实现66%延迟降低与109%吞吐提升?

机智流 2025-10-14 22:39

聊聊大模型推理系统之RServe如何实现66%延迟降低与109%吞吐提升?图1


> 本文由 Intern-S1 等 AI 生成,机智流编辑部校对

在多模态大模型(Large Multimodal Models, LMMs)日益普及的今天,用户对响应速度的要求却愈发严苛。然而,现有推理系统在处理包含图像、视频等多模态数据的请求时,常常因编码模块与语言模型之间的强耦合而陷入性能瓶颈。有没有一种方法,能同时兼顾低延迟与高吞吐?

来自中山大学与小红书的研究团队给出了答案——RServe。这项工作不仅提出了细粒度调度机制,更首次系统性地实现了请求内(intra-request)与请求间(inter-request)的双重流水线并行,在主流 LMM 上实现了最高 66%的延迟降低109%的吞吐提升


核心看点

聊聊大模型推理系统之RServe如何实现66%延迟降低与109%吞吐提升?图2

RServe 是一个面向LMM 推理的高效服务系统,其核心突破在于解耦并重叠多模态编码与语言模型前向计算。传统系统必须等待所有图像、音频等多模态数据完成编码后,才能启动语言模型的prefill 阶段(即对整个输入提示进行首次前向计算并生成 KV 缓存),导致显著延迟。RServe 则通过嵌入追踪器(Embedding Tracker)与可调度令牌(Schedulable Tokens)机制,实现“边编码、边计算”,大幅缩短首令牌延迟(TTFT)。该技术已在Qwen2.5-VL系列模型上验证,适用于从单 GPU 到多节点分布式部署的多种场景,为多模态 AI 服务提供了通用且高效的推理底座。


研究背景

聊聊大模型推理系统之RServe如何实现66%延迟降低与109%吞吐提升?图3

当前,LMM 推理普遍采用“编码-预填充-解码”(Encoder-Prefill-Decode, EPD)三阶段流程。其中,多模态编码器(如视觉编码器)负责将图像等非文本数据转换为与文本兼容的嵌入向量,再交由大型语言模型(LLM)处理。然而,高分辨率图像或长视频的编码开销巨大——在某些请求中,编码耗时可占总延迟的 26%以上(见论文图 2),成为性能瓶颈。

尽管已有工作尝试将编码模块与 LLM解耦部署(disaggregation),但它们仍将编码与 prefill 视为严格串行过程,未能挖掘两者间的请求内并行性。与此同时,现代 LLM 服务虽已广泛采用分块流水线并行(Chunked Pipeline Parallelism, CPP)来加速长上下文处理,但这一技术尚未被有效整合进 LMM 的编码-推理协同调度中。RServe 正是瞄准这一空白,提出了一套端到端的调度框架,打通了从多模态输入到文本输出的高效通路。

聊聊大模型推理系统之RServe如何实现66%延迟降低与109%吞吐提升?图4

核心贡献

聊聊大模型推理系统之RServe如何实现66%延迟降低与109%吞吐提升?图5

请求内流水线:细粒度重叠编码与 Prefill

RServe 引入嵌入追踪器,为每个请求动态维护嵌入向量的“就绪状态”。文本嵌入可立即就绪,而多模态嵌入则按编码批次(默认 1024 个令牌)逐步生成。一旦部分嵌入就绪,系统即启动对应片段的 prefill 计算,实现编码与 LLM 前向的流水线重叠。实验表明,仅此一项优化,即可在低负载下将 TTFT 降低 18%~19% (相比 EPD 基线)。

聊聊大模型推理系统之RServe如何实现66%延迟降低与109%吞吐提升?图6

请求间协同调度:基于可调度令牌的动态批处理

为兼顾高吞吐,RServe 提出可调度令牌概念:一个令牌只有在其嵌入就绪且前序令牌已调度时,才可被纳入当前微批次。调度器基于全局令牌预算,动态聚合多个请求的可调度令牌,填满计算单元。这种机制有效避免了因部分请求编码慢而导致的流水线气泡(pipeline bubbles),使系统在高并发下仍保持高资源利用率。

聊聊大模型推理系统之RServe如何实现66%延迟降低与109%吞吐提升?图7

实证效果显著,兼容主流并行策略

在 8×H100 GPU 集群上,针对Qwen2.5-VL-72B模型(2K 图像分辨率),RServe 相比当前主流框架vLLMgLLM,实现了最高 66%的 TTFT 降低109%的吞吐提升。更重要的是,其请求内优化Tensor Parallelism(TP)或Pipeline Parallelism(PP)正交,可无缝集成;而请求间调度则与 CPP 天然契合,进一步放大性能收益。功能测试(如MMMU 基准)也证实,RServe 在加速推理的同时未损失模型精度(得分波动<0.5%)。

聊聊大模型推理系统之RServe如何实现66%延迟降低与109%吞吐提升?图8

行业意义

RServe 的提出,标志着 LMM 服务从“粗粒度串行”迈向“细粒度协同调度”的新阶段。其设计理念与当前大模型服务架构解耦化(如 prefill-decode disaggregation)的趋势高度一致,并进一步将解耦思想延伸至多模态编码层。该技术可直接应用于多模态智能客服实时视觉问答自动驾驶多传感器融合推理等对延迟敏感的场景,显著提升用户体验。

同时,通过提升 GPU 利用率与吞吐,RServe 有助于降低单位请求的计算能耗,契合国家“东数西算”与绿色 AI的战略导向。未来,随着多模态 Agent具身智能的发展,高效 LMM 推理将成为基础设施的关键一环。RServe 所验证的“重叠+调度”范式,有望推动整个行业在多模态大模型服务技术路线上的标准化与优化。

推动多模态 AI 从“能用”走向“好用”,RServe 正加速这一变革。

论文链接:

https://arxiv.org/abs/2509.24381



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号