聊聊大模型推理系统之 TaiChi:打破聚合/分离之争,华为云提出统一架构

机智流 2025-08-12 20:41

资讯配图

全文约 2000 字,预计阅读时间 6 分钟

如何在保证响应速度的同时,大幅提升大模型服务的效率?这篇论文给出了惊艳答案。

随着大语言模型(LLM)在聊天机器人、代码生成、文档分析等领域的广泛应用,其高昂的推理成本已成为服务提供商的巨大负担。如何在满足用户对响应速度(如首字延迟)和生成流畅度(如每字延迟)双重体验要求的前提下,最大化系统能处理的请求数量(即好吞吐量(goodput)),是当前LLM 服务系统的核心挑战。

长久以来,业界围绕预填充-解码分离(PD Disaggregation)与聚合(PD Aggregation)两种架构争论不休。前者通过物理隔离两个阶段来减少干扰,提升生成速度;后者则通过共享资源来提高利用率,优化响应速度。然而,这两种“非此即彼”的方案都存在明显短板。这篇论文没有选择站队,而是提出了一个颠覆性的统一方案——TaiChi,成功将好吞吐量提升了最高 77%。

资讯配图

核心看点

资讯配图

本文的核心亮点在于,它没有固守传统的技术路线,而是通过深入分析发现:PD 聚合首字延迟(TTFT)要求严格时表现最佳,而PD 分离每字延迟(TPOT)要求严格时更胜一筹。然而,当用户对两者都有均衡要求时,现有方案均会顾此失彼。

基于此洞察,研究团队提出了TaiChi系统,它创造性地统一了聚合与分离架构。其关键创新是“延迟迁移”(latency shifting)——通过智能调度,将那些远超服务等级协议(SLO)的请求所“浪费”的资源,动态地转移到那些即将违反 SLO 的“濒危”请求上。这就像在交通高峰期,为急救车动态开辟绿色通道,从而最大化整体通行效率。

TaiChi已成功集成于开源项目 vLLM,并计划开源,为整个 LLM 服务领域提供了一个全新的、可落地的高性能解决方案。


研究背景

传统的 LLM 推理分为两个阶段:预填充(Prefill)阶段需要一次性处理用户输入的全部提示词,计算密集,决定了首字延迟(TTFT);解码(Decode)阶段则逐个生成输出 token,内存密集,决定了每字延迟(TPOT)。一个理想的系统需要同时优化这两个指标。

现有的PD 聚合方案(如 OrcaSarathi-Serve)将两个阶段放在同一 GPU 实例上,虽然资源利用率高,但长提示词的预填充会严重干扰正在进行的解码任务,导致 TPOT 急剧上升。相反,PD 分离方案(如 Splitwise、DistServe)将预填充和解码分别部署在专用实例上,消除了干扰,但用于预填充的实例数量有限,导致在高负载下预填充队列积压,TTFT 大幅增加。

这导致了一个根本性的困境:现有方法在平衡的 SLO(即 TTFT 和 TPOT 都要求严格)下表现糟糕。例如,在实验中,当 SLO 设定为 6 秒 TTFT 和 100 毫秒 TPOT 时,PD 聚合和 PD 分离的 SLO 满足率分别仅为 16%和 50%。这表明,单纯优化一个指标会牺牲另一个,无法实现整体好吞吐量的最大化。

资讯配图

核心贡献

方法创新:混合模式推理与差异化实例

TaiChi的核心是构建了一个统一的聚合-分离架构。它将 GPU 实例分为两种类型:预填充重实例(P-heavy)和解码重实例(D-heavy)。P-heavy 实例配置大 chunk size,擅长快速处理预填充,但解码时干扰严重;D-heavy 实例配置小 chunk size,解码干扰极低,但预填充速度较慢。

系统通过三个可配置的“滑块”(Sliders)进行调控:P/D 实例比例、P-heavy 的 chunk size、D-heavy 的 chunk size。这使得系统能灵活适应不同场景:当 TTFT 是瓶颈时,可调为类似聚合的模式;当 TPOT 是瓶颈时,可调为类似分离的模式;而在平衡 SLO 下,则启用其独创的混合模式推理(Hybrid-Mode Inference)。

在这种模式下,单个请求的预填充和解码阶段可以运行在不同类型的实例上,实现了前所未有的调度灵活性。例如,一个长提示词请求的预填充可以放在 P-heavy 实例上以保证 TTFT,而其解码则被“流”到 D-heavy 实例上以保证 TPOT。

理论突破:实现请求级的精细延迟控制

在混合模式的基础上,团队提出了两大核心调度机制,实现了请求级的延迟迁移。

资讯配图

首先是流动解码调度(Flowing Decode Scheduling),用于控制 TPOT。所有解码请求初始都在低干扰的 D-heavy 实例上运行。当 D-heavy 实例内存接近饱和时,系统会将当前输出长度最长的请求迁移到高干扰的 P-heavy 实例上,从而“降级”其 TPOT,为新请求腾出资源。这巧妙地解决了“输出长度未知”的难题——长输出请求有更大的延迟预算来吸收性能降级。一旦被降级的请求 TPOT 接近 SLO 阈值,它又会被“流回”D-heavy 实例。

其次是长度感知预填充调度(Length-Aware Prefill Scheduling),用于控制 TTFT。系统会预测每个预填充请求在不同实例上的总延迟(排队+执行+传输)。对于短提示词请求,即使将其分配到较慢的 D-heavy 实例也能满足 TTFT,系统就会主动“降级”它,从而将快速的 P-heavy 实例留给更紧急的长提示词请求。

资讯配图

实证成果:性能飞跃

资讯配图

实验在 Qwen2.5 系列模型上进行,结果令人瞩目。在平衡 SLO 下,TaiChi相比PD 聚合将好吞吐量提升了9%至 47% ,相比PD 分离提升了29%至 77% 

更具体地,在摘要生成任务中,对于 14B 和 32B 模型,TaiChi 在 SLO2 下的好吞吐量分别比 PD 分离高出77%74% 。同时,其尾部延迟也显著降低:相比 PD 分离,TTFT 降低了 2.42 至 13.20 倍;相比 PD 聚合,TPOT 降低了 1.11 至 1.69 倍。这直接证明了其“延迟迁移”策略的有效性。


行业意义

TaiChi的研究成果,为LLM 服务技术路线指明了一个新的方向:从“二选一”的对抗走向“聚合与分离”的统一。这种方法论的转变,有望成为下一代 LLM 推理引擎的标准范式。

其设计思想与国家倡导的降本增效绿色计算政策高度契合。通过最大化硬件资源利用率,TaiChi 能显著降低单位请求的能耗和碳排放,推动 AI 产业向可持续发展迈进。

更重要的是,这种精细化的资源调度能力,可能引发产业变革。它使得服务提供商能够以更低的成本,为用户提供更高质量、更稳定的服务体验。无论是需要快速响应的客服机器人,还是要求流畅生成的创作工具,都将从中受益。TaiChi不仅是一项技术突破,更是推动整个大模型应用生态升级的关键力量。


论文链接:https://arxiv.org/abs/2508.01989


-- 完 --


机智流推荐阅读

1. LLM思维链是海市蜃楼? R-Zero零数据自进化,DeepPHY物理推理,Qwen-Image,HF本周TOP20论文速览!

2. 仅一行代码即可极大优化SFT泛化能力!东南大学等顶尖高校揭示SFT泛化能力差的根本原因,并提出高效改进方案

3. 还在手写CUDA?上交KernelPilot用AI帮你写又快又好的CUDA!

4. 一张截图就能生成前端页面?MMLab实验室推出SCREENCODER大模型 | 开源



关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有
HuggingFace每日精选论文顶会论文解读Talk分享通俗易懂的Agent知识与项目前沿AI科技资讯大模型实战教学活动等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
  • cc | 大模型技术交流群
  • hf | HuggingFace 高赞论文分享群
  • 具身 | 具身智能交流群
  • 硬件 | AI 硬件交流群
  • 智能体 | Agent 技术交流群

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 华为
more
本体&AI视觉&工艺系统,解锁船舶制造高效焊接 | 报名通道
在搞力学和搞AI之间,他选择了养猪
别骂AI卡了!华为新推理技术救场,9月开源免费给全行业用
AI全国榜单爆冷,全网吃瓜大狂欢!这家黑马竟靠DeepSeek杀进全国TOP 2
OpenAI与xAI争锋IOI竞赛第一,奥特曼和马斯克互怼,最佳大模型集体输给高中生?
【报告】教育专题三:2025AI赋能教育行业发展趋势报告(附PDF下载)
NVIDIA 通过全新 Omniverse 库、Cosmos 物理 AI 模型及 AI 计算基础设施,为机器人领域开启新篇章
ChatGPT惊现“零点击攻击”,API密钥被轻松泄露,OpenAI暂未解决
当机器人遇见创新,AI生态不止于“会”
物理学「AlphaGo时刻」?40年未竟之事被AI一举攻破,顶尖物理学家集体傻眼
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号