聊聊大模型推理系统之Hetis:如何让“高低配”GPU集群跑出2.25倍吞吐?

机智流 2025-09-23 22:27
本文由 Intern-S1 等 AI 生成,机智流编辑部校对

在大模型时代,算力需求如潮水般上涨。然而,现实中的生产集群往往并非清一色的顶级显卡,而是由A1003090甚至老旧的P100等不同性能和内存配置的 GPU 混搭而成——这种异构 GPU 集群虽能降低成本,却给大语言模型(LLM)服务带来了巨大挑战:高配 GPU 空转等待,低配 GPU 内存耗尽,整体效率大打折扣。

面对这一行业痛点,最新研究提出了一套颠覆性解决方案。来自澳门大学与中山大学的研究团队在 SC '25 上发表论文,推出了名为 Hetis 的新型 LLM 服务系统。该系统不仅将服务吞吐量最高提升了2.25 倍,还将推理延迟降低了1.49 倍,其背后究竟有何创新玄机?


核心看点

资讯配图

Hetis 的核心突破在于彻底改变了传统 LLM 服务中“一刀切”的并行策略。它首次提出了细粒度动态并行机制,精准匹配异构硬件资源与模型模块特性。具体而言,Hetis 通过主工作节点并行化(Primary Worker Parallelism)优化计算密集型模块(如 MLP),仅在高性能 GPU 间进行协作;同时引入动态头级注意力并行化(Dynamic Head-wise Attention Parallelism),将轻量级的Attention计算灵活分发至所有 GPU,包括低性能设备。在此基础上,系统还设计了在线调度算法,实时平衡网络、计算与内存负载,从而实现了资源利用率的全局最优化。


研究背景

当前主流的 LLM 服务系统在异构环境下面临两大核心瓶颈:内存效率低下计算资源错配。以 Splitwise 为代表的阶段拆分方案,将预填充(Prefill)与解码(Decode)任务分别交给高/低性能 GPU 执行,虽缓解了计算压力,却导致 KV 缓存空间严重不足。而 Hexgen 等采用非对称参数划分的系统,则因计算能力与内存容量的不匹配,造成高端 GPU 内存大量闲置。

资讯配图

更深层的问题在于,现有方法普遍采用静态并行策略,无法适应请求长度、批次大小等动态变化。例如,MLP 模块在 A100 与 P100 上的运算速度差距可达 24.5 倍,若强行统一并行,低效设备将成为拖累整体性能的“短板”。与此同时,Attention 模块因其无参数特性和较低的计算强度,在各类 GPU 上表现相对均衡,具备更高的并行灵活性。Hetis 正是抓住了这一关键差异,开启了精细化调度的新思路。


核心贡献

方法创新:模块级差异化并行架构

资讯配图

Hetis 的核心是“按需分配”的并行哲学。对于计算密集的 MLP 和预填充阶段的 Attention,系统通过一个层次化搜索过程,自动筛选出最优的主工作节点组合,并在此子集内应用数据、流水线与张量并行(DP/PP/TP),力求最小化通信开销与计算延迟。那些未被选中的低端 GPU 则被划为注意力工作节点(Attention Workers),专司 Attention 计算任务。

资讯配图

针对 Attention 模块,Hetis 创新性地采用头维度(head-wise)进行分割。相比按请求或序列长度拆分,头级并行能显著减少跨设备通信量。实验表明,在仅卸载 20%负载时,头级分割的通信开销比序列级分割降低近2.68 倍;当使用 4 个注意力工作节点时,延迟优势可达3.55 倍

实证成果:吞吐与延迟双重突破

在包含 A100、3090 和 P100 的真实异构集群上,Hetis 展现了卓越性能。测试涵盖Llama-13BOPT-30BLlama-70B等多种模型及真实工作负载(聊天、代码生成、长文本摘要)。结果显示:

资讯配图
  • 吞吐量最高提升至基线系统的2.25 倍(对比 Splitwise)和1.33 倍(对比 Hexgen);
  • 推理延迟方面,P95 的TTFT(首令牌时间)和TPOT(每令牌处理时间)分别改善最多1.47 倍1.39 倍
  • KV 缓存空间利用率提升显著,最大可用缓存空间比基线多出1.87 倍,有效支持更多并发请求。

这些数据充分验证了 Hetis 在复杂动态环境下的鲁棒性与高效性。


资讯配图

在方法创新的基础上,团队进一步验证了系统的自适应能力。Hetis 内置的在线调度器(Dispatcher)基于对计算与通信成本的显式建模,实时决策每个请求的注意力头分配方案。当遇到超长上下文导致负载不均时,系统还能触发重调度机制(Re-dispatching),动态迁移部分计算任务,避免单点瓶颈。

此外,为支撑头级并行,Hetis 实现了头粒度 KV 缓存管理,开发了新的 CUDA 内核以高效索引与传输缓存块。尽管存储元数据开销增加13% ,但得益于 CPU 多核加速,缓存获取时间反而减少了26% ,实现了总体性能净增益。


行业意义

Hetis 的出现,为异构算力环境下的大模型部署提供了全新的技术范式。它标志着 LLM 服务正从粗放式的资源堆砌,迈向精细化、动态化的智能调度时代。这一思路与国家倡导的绿色计算算力普惠政策高度契合,有助于盘活存量算力资产,降低 AI 应用门槛。

未来,Hetis 所验证的模块感知并行(Module-aware Parallelism)理念有望推动整个分布式推理技术路线的演进。无论是边缘计算中的混合芯片,还是云平台上的抢占式实例,此类动态适配机制都将成为提升资源利用效率的关键。可以预见,随着大模型应用场景的不断下沉,像 Hetis 这样的智能调度系统,将在构建高效、可持续的 AI 基础设施中扮演变革性角色。

论文原文:Hetis: Serving LLMs in Heterogeneous GPU Clusters with Fine-grained and Dynamic Parallelism[1]

参考资料
[1] 

Hetis: Serving LLMs in Heterogeneous GPU Clusters with Fine-grained and Dynamic Parallelismhttps://arxiv.org/abs/2509.08309


-- 完 --


机智流推荐阅读

1. 聊聊阿里的新深度研究框架:WebWeaver 如何通过双智能体突破传统开源方案“先搜后写”和““静态大纲引导搜索”两种范式

2. SGLang case study:W4A8 GroupGEMM 学习

3. LLM真能读懂报表吗?EMNLP'25首个工业级表格生成报告基准T2R-bench:最强大模型仅得62分

4. 抢先 Qwen Next?腾讯自研 FastMTP 重磅开源:推理速度暴涨 203%,消费级显卡也能跑出无损速度翻倍!



关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有
HuggingFace每日精选论文顶会论文解读Talk分享通俗易懂的Agent知识与项目前沿AI科技资讯大模型实战教学活动等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
  • cc | 大模型技术交流群
  • hf | HuggingFace 高赞论文分享群
  • 具身 | 具身智能交流群
  • 硬件 | AI 硬件交流群
  • 智能体 | Agent 技术交流群

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
GPU
more
魏少军:中国应放弃英伟达GPU!
【硬件资讯】合体不影响各自线路,Intel与NVIDIA均声明,各自后续CPU、GPU产品仍将正常更新。
龙芯首款GPU,即将流片!
重磅!英伟达1000亿美元投资OpenAI,奥特曼爆买500百万块GPU
【AI】全流程国产GPU,上下文提速100倍!中国科学院发布「线性复杂度」类脑大模型
微软用「光」跑AI登上Nature!100倍能效颠覆GPU,华人首席研究员扛鼎
苹果A19 Pro架构详解:台积电3nm工艺再升级,更大缓存、更快GPU与一颗「安全芯」
龙芯中科首款GPGPU芯片,Q3流片
【硬件资讯】国产算力芯片发展——华为公布昇腾芯片路线,龙芯首款GPGPU研发完成,头部科技企业全面适配国产芯!
天玑9500前瞻测试丨能效为王 GPU光追性能翻三倍
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号