
在大模型(LLM)服务日益普及的今天,高昂的算力成本已成为企业落地应用的一大瓶颈。如何在保证服务质量的前提下,最大化利用异构 GPU 集群的性能差异,实现极致的成本效益?来自北航与快手的研究团队给出了答案。
他们提出的 Cauchy 系统,通过自适应异构部署,在真实场景下实现了最高38.3% 的 Tokens/USD 效率提升,同时将端到端延迟降低了近六成。这一成果不仅刷新了业界对 LLM 服务成本的认知,也为大规模 AI 应用的经济性提供了全新的技术路径。

论文标题:Cauchy: A Cost-Efficient LLM Serving System through Adaptive Heterogeneous Deployment
论文链接:https://zhangmenghao.github.io/papers/SoCC2025-Cauchy.pdf

核心看点
当前主流的大模型服务框架往往将预填充(Prefill) 和 解码(Decode) 两个阶段部署在同一类型的 GPU 上,忽略了二者截然不同的资源需求——预填充是计算密集型任务,而解码则是内存带宽密集型任务。这种“一刀切”的同质化部署策略,导致高性能 GPU 的算力或带宽无法被充分利用,造成巨大的资源浪费。
Cauchy 系统的核心洞察在于:为不同的计算阶段匹配最合适的 GPU 类型。它提出了一种名为 GPU Combo 的抽象概念,即一个由不同数量、不同类型 GPU 组成的逻辑组合,专门用于协同完成一次完整的 LLM 推理请求。通过精心选择和动态调度这些 Combo,Cauchy 能够像“拼乐高”一样,灵活地构建出成本效益最优的服务单元。
此外,该系统还设计了分层调度架构和动态自动扩缩容机制,确保在面对流量波动时,既能维持高质量的服务水平目标(SLO),又能避免资源过度配置。这套软硬协同的优化方案,使得 Cauchy 在复杂多变的真实业务环境中依然表现出色。
研究背景
传统的 LLM 服务模式通常采用聚合部署(Prefill-Decode Aggregation),即将预填充和解码过程放在同一块 GPU 上执行,以避免中间状态(如 KVCache)跨设备传输带来的开销。然而,随着模型规模和上下文长度的激增,这种模式的弊端愈发明显:一块 GPU 必须同时满足高算力和高带宽的需求,难以充分发挥特定硬件的优势。
近年来,拆分式部署(Prefill-Decode Disaggregation)逐渐成为趋势,它允许将两个阶段分离到不同的 GPU 实例上。但现有方案大多局限于同质化集群,或是静态配置,无法根据实时负载和硬件异构性进行动态调整。
与此同时,数据中心的 GPU 集群正变得越来越异构化。例如,NVIDIA H800 GPU 拥有极高的算力(TFLOPs),非常适合预填充;而 H20 GPU 则具备卓越的内存带宽(GB/s),是解码的理想选择。如果能精准地将“好钢用在刀刃上”,就能显著提升整体性价比。Cauchy 正是抓住了这一关键机遇,将工作负载特性与硬件能力深度耦合,开辟了一条全新的优化路线。
核心贡献

方法创新:基于 GPU Combo 的智能分配
Cauchy 的核心是GPU Combo这一新型抽象。一个 Combo 定义为一对 GPU 配置,分别服务于预填充和解码阶段,例如<2×H800, 4×H20>表示用 2 块 H800 处理预填充,4 块 H20 处理解码。系统会预先评估所有可能的 Combo 组合,并根据其成本效益(Cost-Efficiency, CE) 进行排序。这里的 CE 定义为每美元所能处理的 Token 数量(Tokens/USD),综合考量了算力、带宽和价格。
为了做出最优决策,Cauchy 建立了一个理论模型来预测每个 Combo 的 CE:
CE = A1 * (GPUf_prefill / GPUp_prefill) + A2 * (GPUb_decode / GPUp_decode)
其中,A1和A2是与工作负载相关的权重系数,分别反映预填充和解码的计算强度。这一定量分析揭示了“相对优势原则”:应将算力性价比最高的 GPU 分配给预填充,将带宽性价比最高的 GPU 分配给解码。
随后,系统通过一个多目标整数线性规划(ILP)求解器,在满足用户吞吐量(Goodput)要求和集群资源约束的前提下,确定最终部署哪些 Combo 以及各自的数量,从而在成本和效率之间取得最佳平衡。

实证成果:性能与成本的双重飞跃
研究团队在包含 H800、A800 和 H20 等多种 GPU 的真实集群上进行了全面测试,对比了当前最先进的异构调度系统Mélange。实验结果令人瞩目:
成本效益提升高达 38.3% :在处理长输入-短输出(如摘要)、均衡输入输出(如对话)和短输入-长输出(如创作)三类典型工作负载时,Cauchy 的 Tokens/USD 指标均大幅领先。 延迟显著降低:端到端请求延迟最高下降了59.1% ,首次生成令牌时间(TTFT)减少了最多95.1% ,连续生成间隔(TBT)也改善了超过 60%。 调度与扩缩容机制效果显著:其分层调度策略使平均 E2E 延迟比基础轮询算法降低了 25.4%;而动态的 Combo 级自动扩缩容机制,在应对流量高峰时,能将 P90 延迟稳定控制在更低水平,避免了静态部署下的性能骤降。
这些数据充分证明,Cauchy 不仅能实现理论上的成本优化,更能将效益转化为实实在在的用户体验提升。

行业意义
Cauchy 的研究为大模型推理服务技术路线注入了新的活力。它打破了以往对同质化硬件的依赖,倡导了一种“因材施教”的精细化资源管理理念。这种方法与国家倡导的绿色低碳和算力高效利用的政策方向高度契合,有助于降低 AI 产业的整体能耗和碳足迹。
更重要的是,随着云服务商提供的 GPU 类型日益丰富,Cauchy 这类能够深度挖掘异构潜力的系统,将成为企业构建经济高效 AI 基础设施的关键工具。它有望推动自动驾驶、智能客服、内容生成等需要大规模 LLM 推理的产业加速升级,让更多创新应用从实验室走向千家万户。
论文标题:Cauchy: A Cost-Efficient LLM Serving System through Adaptive Heterogeneous Deployment
论文链接:https://zhangmenghao.github.io/papers/SoCC2025-Cauchy.pdf
> 本文由 Intern-S1 等 AI 生成,机智流编辑部校对
-- 完 --
机智流推荐阅读:
1.
2.
3.
4.
关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有与、、、、等。
cc | 大模型技术交流群 hf | HuggingFace 高赞论文分享群 code | AI Coding 交流群 具身 | 具身智能交流群 硬件 | AI 硬件交流群 智能体 | Agent 技术交流群