资讯配图

全文约 2000 字，预计阅读时间 6 分钟

如何在保证响应速度的同时，大幅提升大模型服务的效率？这篇论文给出了惊艳答案。

随着大语言模型（LLM）在聊天机器人、代码生成、文档分析等领域的广泛应用，其高昂的推理成本已成为服务提供商的巨大负担。如何在满足用户对响应速度（如首字延迟）和生成流畅度（如每字延迟）双重体验要求的前提下，最大化系统能处理的请求数量（即好吞吐量（goodput）），是当前LLM 服务系统的核心挑战。

长久以来，业界围绕预填充-解码分离（PD Disaggregation）与聚合（PD Aggregation）两种架构争论不休。前者通过物理隔离两个阶段来减少干扰，提升生成速度；后者则通过共享资源来提高利用率，优化响应速度。然而，这两种“非此即彼”的方案都存在明显短板。这篇论文没有选择站队，而是提出了一个颠覆性的统一方案——TaiChi，成功将好吞吐量提升了最高 77%。

核心看点

本文的核心亮点在于，它没有固守传统的技术路线，而是通过深入分析发现：PD 聚合在首字延迟（TTFT）要求严格时表现最佳，而PD 分离在每字延迟（TPOT）要求严格时更胜一筹。然而，当用户对两者都有均衡要求时，现有方案均会顾此失彼。

基于此洞察，研究团队提出了TaiChi系统，它创造性地统一了聚合与分离架构。其关键创新是“延迟迁移”（latency shifting）——通过智能调度，将那些远超服务等级协议（SLO）的请求所“浪费”的资源，动态地转移到那些即将违反 SLO 的“濒危”请求上。这就像在交通高峰期，为急救车动态开辟绿色通道，从而最大化整体通行效率。

TaiChi已成功集成于开源项目 vLLM，并计划开源，为整个 LLM 服务领域提供了一个全新的、可落地的高性能解决方案。

研究背景

传统的 LLM 推理分为两个阶段：预填充（Prefill）阶段需要一次性处理用户输入的全部提示词，计算密集，决定了首字延迟（TTFT）；解码（Decode）阶段则逐个生成输出 token，内存密集，决定了每字延迟（TPOT）。一个理想的系统需要同时优化这两个指标。

现有的PD 聚合方案（如 Orca、Sarathi-Serve）将两个阶段放在同一 GPU 实例上，虽然资源利用率高，但长提示词的预填充会严重干扰正在进行的解码任务，导致 TPOT 急剧上升。相反，PD 分离方案（如 Splitwise、DistServe）将预填充和解码分别部署在专用实例上，消除了干扰，但用于预填充的实例数量有限，导致在高负载下预填充队列积压，TTFT 大幅增加。

这导致了一个根本性的困境：现有方法在平衡的 SLO（即 TTFT 和 TPOT 都要求严格）下表现糟糕。例如，在实验中，当 SLO 设定为 6 秒 TTFT 和 100 毫秒 TPOT 时，PD 聚合和 PD 分离的 SLO 满足率分别仅为 16%和 50%。这表明，单纯优化一个指标会牺牲另一个，无法实现整体好吞吐量的最大化。

核心贡献

方法创新：混合模式推理与差异化实例

TaiChi的核心是构建了一个统一的聚合-分离架构。它将 GPU 实例分为两种类型：预填充重实例（P-heavy）和解码重实例（D-heavy）。P-heavy 实例配置大 chunk size，擅长快速处理预填充，但解码时干扰严重；D-heavy 实例配置小 chunk size，解码干扰极低，但预填充速度较慢。

系统通过三个可配置的“滑块”（Sliders）进行调控：P/D 实例比例、P-heavy 的 chunk size、D-heavy 的 chunk size。这使得系统能灵活适应不同场景：当 TTFT 是瓶颈时，可调为类似聚合的模式；当 TPOT 是瓶颈时，可调为类似分离的模式；而在平衡 SLO 下，则启用其独创的混合模式推理（Hybrid-Mode Inference）。

在这种模式下，单个请求的预填充和解码阶段可以运行在不同类型的实例上，实现了前所未有的调度灵活性。例如，一个长提示词请求的预填充可以放在 P-heavy 实例上以保证 TTFT，而其解码则被“流”到 D-heavy 实例上以保证 TPOT。

理论突破：实现请求级的精细延迟控制

在混合模式的基础上，团队提出了两大核心调度机制，实现了请求级的延迟迁移。

首先是流动解码调度（Flowing Decode Scheduling），用于控制 TPOT。所有解码请求初始都在低干扰的 D-heavy 实例上运行。当 D-heavy 实例内存接近饱和时，系统会将当前输出长度最长的请求迁移到高干扰的 P-heavy 实例上，从而“降级”其 TPOT，为新请求腾出资源。这巧妙地解决了“输出长度未知”的难题——长输出请求有更大的延迟预算来吸收性能降级。一旦被降级的请求 TPOT 接近 SLO 阈值，它又会被“流回”D-heavy 实例。

其次是长度感知预填充调度（Length-Aware Prefill Scheduling），用于控制 TTFT。系统会预测每个预填充请求在不同实例上的总延迟（排队+执行+传输）。对于短提示词请求，即使将其分配到较慢的 D-heavy 实例也能满足 TTFT，系统就会主动“降级”它，从而将快速的 P-heavy 实例留给更紧急的长提示词请求。

实证成果：性能飞跃

实验在 Qwen2.5 系列模型上进行，结果令人瞩目。在平衡 SLO 下，TaiChi相比PD 聚合将好吞吐量提升了9%至 47% ，相比PD 分离提升了29%至 77% 。

更具体地，在摘要生成任务中，对于 14B 和 32B 模型，TaiChi 在 SLO2 下的好吞吐量分别比 PD 分离高出77%和74% 。同时，其尾部延迟也显著降低：相比 PD 分离，TTFT 降低了 2.42 至 13.20 倍；相比 PD 聚合，TPOT 降低了 1.11 至 1.69 倍。这直接证明了其“延迟迁移”策略的有效性。

行业意义

TaiChi的研究成果，为LLM 服务技术路线指明了一个新的方向：从“二选一”的对抗走向“聚合与分离”的统一。这种方法论的转变，有望成为下一代 LLM 推理引擎的标准范式。

其设计思想与国家倡导的降本增效和绿色计算政策高度契合。通过最大化硬件资源利用率，TaiChi 能显著降低单位请求的能耗和碳排放，推动 AI 产业向可持续发展迈进。

更重要的是，这种精细化的资源调度能力，可能引发产业变革。它使得服务提供商能够以更低的成本，为用户提供更高质量、更稳定的服务体验。无论是需要快速响应的客服机器人，还是要求流畅生成的创作工具，都将从中受益。TaiChi不仅是一项技术突破，更是推动整个大模型应用生态升级的关键力量。

论文链接：https://arxiv.org/abs/2508.01989

-- 完 --

2. 仅一行代码即可极大优化SFT泛化能力！东南大学等顶尖高校揭示SFT泛化能力差的根本原因，并提出高效改进方案‍‍

3. 还在手写CUDA？上交KernelPilot用AI帮你写又快又好的CUDA！

4. 一张截图就能生成前端页面？MMLab实验室推出SCREENCODER大模型 | 开源

关注机智流并加入 AI 技术交流群，不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流，同时还有HuggingFace每日精选论文与顶会论文解读、Talk分享、通俗易懂的Agent知识与项目、前沿AI科技资讯、大模型实战教学活动等。

在「机智流」公众号后台回复下方标红内容即可加入对应群聊：

cc | 大模型技术交流群
hf | HuggingFace 高赞论文分享群
具身 | 具身智能交流群
硬件 | AI 硬件交流群
智能体 | Agent 技术交流群