聊聊大模型推理系统之 Cauchy:告别同质化集群,看北航&快手如何榨干异构GPU性能

机智流 2025-11-11 20:30

聊聊大模型推理系统之 Cauchy:告别同质化集群,看北航&快手如何榨干异构GPU性能图1

在大模型(LLM)服务日益普及的今天,高昂的算力成本已成为企业落地应用的一大瓶颈。如何在保证服务质量的前提下,最大化利用异构 GPU 集群的性能差异,实现极致的成本效益?来自北航与快手的研究团队给出了答案。

他们提出的 Cauchy 系统,通过自适应异构部署,在真实场景下实现了最高38.3% 的 Tokens/USD 效率提升,同时将端到端延迟降低了近六成。这一成果不仅刷新了业界对 LLM 服务成本的认知,也为大规模 AI 应用的经济性提供了全新的技术路径。

聊聊大模型推理系统之 Cauchy:告别同质化集群,看北航&快手如何榨干异构GPU性能图2

论文标题:Cauchy: A Cost-Efficient LLM Serving System through Adaptive Heterogeneous Deployment

论文链接:https://zhangmenghao.github.io/papers/SoCC2025-Cauchy.pdf


聊聊大模型推理系统之 Cauchy:告别同质化集群,看北航&快手如何榨干异构GPU性能图3

核心看点

当前主流的大模型服务框架往往将预填充(Prefill) 和 解码(Decode) 两个阶段部署在同一类型的 GPU 上,忽略了二者截然不同的资源需求——预填充是计算密集型任务,而解码则是内存带宽密集型任务。这种“一刀切”的同质化部署策略,导致高性能 GPU 的算力或带宽无法被充分利用,造成巨大的资源浪费。

Cauchy 系统的核心洞察在于:为不同的计算阶段匹配最合适的 GPU 类型。它提出了一种名为 GPU Combo 的抽象概念,即一个由不同数量、不同类型 GPU 组成的逻辑组合,专门用于协同完成一次完整的 LLM 推理请求。通过精心选择和动态调度这些 Combo,Cauchy 能够像“拼乐高”一样,灵活地构建出成本效益最优的服务单元。

此外,该系统还设计了分层调度架构动态自动扩缩容机制,确保在面对流量波动时,既能维持高质量的服务水平目标(SLO),又能避免资源过度配置。这套软硬协同的优化方案,使得 Cauchy 在复杂多变的真实业务环境中依然表现出色。


研究背景

传统的 LLM 服务模式通常采用聚合部署(Prefill-Decode Aggregation),即将预填充和解码过程放在同一块 GPU 上执行,以避免中间状态(如 KVCache)跨设备传输带来的开销。然而,随着模型规模和上下文长度的激增,这种模式的弊端愈发明显:一块 GPU 必须同时满足高算力和高带宽的需求,难以充分发挥特定硬件的优势。

近年来,拆分式部署(Prefill-Decode Disaggregation)逐渐成为趋势,它允许将两个阶段分离到不同的 GPU 实例上。但现有方案大多局限于同质化集群,或是静态配置,无法根据实时负载和硬件异构性进行动态调整。

与此同时,数据中心的 GPU 集群正变得越来越异构化。例如,NVIDIA H800 GPU 拥有极高的算力(TFLOPs),非常适合预填充;而 H20 GPU 则具备卓越的内存带宽(GB/s),是解码的理想选择。如果能精准地将“好钢用在刀刃上”,就能显著提升整体性价比。Cauchy 正是抓住了这一关键机遇,将工作负载特性与硬件能力深度耦合,开辟了一条全新的优化路线。


核心贡献

聊聊大模型推理系统之 Cauchy:告别同质化集群,看北航&快手如何榨干异构GPU性能图4

方法创新:基于 GPU Combo 的智能分配

Cauchy 的核心是GPU Combo这一新型抽象。一个 Combo 定义为一对 GPU 配置,分别服务于预填充和解码阶段,例如<2×H800, 4×H20>表示用 2 块 H800 处理预填充,4 块 H20 处理解码。系统会预先评估所有可能的 Combo 组合,并根据其成本效益(Cost-Efficiency, CE) 进行排序。这里的 CE 定义为每美元所能处理的 Token 数量(Tokens/USD),综合考量了算力、带宽和价格。

为了做出最优决策,Cauchy 建立了一个理论模型来预测每个 Combo 的 CE:

CE = A1 * (GPUf_prefill / GPUp_prefill) + A2 * (GPUb_decode / GPUp_decode)

其中,A1A2是与工作负载相关的权重系数,分别反映预填充和解码的计算强度。这一定量分析揭示了“相对优势原则”:应将算力性价比最高的 GPU 分配给预填充,将带宽性价比最高的 GPU 分配给解码。

随后,系统通过一个多目标整数线性规划(ILP)求解器,在满足用户吞吐量(Goodput)要求和集群资源约束的前提下,确定最终部署哪些 Combo 以及各自的数量,从而在成本和效率之间取得最佳平衡。

聊聊大模型推理系统之 Cauchy:告别同质化集群,看北航&快手如何榨干异构GPU性能图5

实证成果:性能与成本的双重飞跃

研究团队在包含 H800、A800 和 H20 等多种 GPU 的真实集群上进行了全面测试,对比了当前最先进的异构调度系统Mélange。实验结果令人瞩目:

  • 成本效益提升高达 38.3% :在处理长输入-短输出(如摘要)、均衡输入输出(如对话)和短输入-长输出(如创作)三类典型工作负载时,Cauchy 的 Tokens/USD 指标均大幅领先。
  • 延迟显著降低:端到端请求延迟最高下降了59.1% ,首次生成令牌时间(TTFT)减少了最多95.1% ,连续生成间隔(TBT)也改善了超过 60%。
  • 调度与扩缩容机制效果显著:其分层调度策略使平均 E2E 延迟比基础轮询算法降低了 25.4%;而动态的 Combo 级自动扩缩容机制,在应对流量高峰时,能将 P90 延迟稳定控制在更低水平,避免了静态部署下的性能骤降。

这些数据充分证明,Cauchy 不仅能实现理论上的成本优化,更能将效益转化为实实在在的用户体验提升。

聊聊大模型推理系统之 Cauchy:告别同质化集群,看北航&快手如何榨干异构GPU性能图6

行业意义

Cauchy 的研究为大模型推理服务技术路线注入了新的活力。它打破了以往对同质化硬件的依赖,倡导了一种“因材施教”的精细化资源管理理念。这种方法与国家倡导的绿色低碳算力高效利用的政策方向高度契合,有助于降低 AI 产业的整体能耗和碳足迹。

更重要的是,随着云服务商提供的 GPU 类型日益丰富,Cauchy 这类能够深度挖掘异构潜力的系统,将成为企业构建经济高效 AI 基础设施的关键工具。它有望推动自动驾驶智能客服内容生成等需要大规模 LLM 推理的产业加速升级,让更多创新应用从实验室走向千家万户。

论文标题:Cauchy: A Cost-Efficient LLM Serving System through Adaptive Heterogeneous Deployment

论文链接:https://zhangmenghao.github.io/papers/SoCC2025-Cauchy.pdf


> 本文由 Intern-S1 等 AI 生成,机智流编辑部校对


-- 完 --


机智流推荐阅读

1. 

2. 

3. 

4. 


关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有
等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
  • cc | 大模型技术交流群
  • hf | HuggingFace 高赞论文分享群
  • code | AI Coding 交流群
  • 具身 | 具身智能交流群
  • 硬件 | AI 硬件交流群
  • 智能体 | Agent 技术交流群

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
GPU 大模型
more
黄仁勋回击AI泡沫论!GPU全卖光,Q3净赚2200亿
融资超20亿,这家“非GPU”芯片公司跻身国产AI算力第一梯队
英伟达正式推出下一代GPU
TechWeb早报:阿里启动“千问”项目全面对标ChatGPT,摩尔线程冲刺“国产GPU第一股”
3055亿!科创板“国产GPU第一股”诞生,开盘暴涨469%
新窗口指导大范围取消补贴;智算中心建设先算亏多少;已过会GPU公司成立新业务组;头部大厂收缩服务器供应商丨算力情报局
刚刚,上海GPU龙头IPO注册生效!
刚刚,国产GPU龙头IPO注册生效!上市在即
英特尔前CEO:GPU将很快被替代!
HAMi × NVIDIA:GPU 拓扑感知调度实现详解
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号