聊聊大模型推理系统之Aegaeon:用Token级自动扩缩容实现单GPU服务7个模型高效并发推理!

机智流 2025-10-28 21:45

聊聊大模型推理系统之Aegaeon:用Token级自动扩缩容实现单GPU服务7个模型高效并发推理!图1

尽管如今大模型如雨后春笋般涌现,但现实却很骨感:绝大多数模型调用稀疏、请求突发性强,导致大量 GPU 长期“空转”——17.7%的 GPU 仅处理 1.35%的请求,资源利用率惨不忍睹。

面对这一行业痛点,来自北京大学阿里巴巴集团的研究团队提出了 Aegaeon ——一个面向模型市场的高效GPU 池化(GPU Pooling)系统。

聊聊大模型推理系统之Aegaeon:用Token级自动扩缩容实现单GPU服务7个模型高效并发推理!图2

它通过Token 级自动扩缩容(token-level auto-scaling)技术,在保障服务等级目标(SLO)的前提下,将 GPU 需求从 1192 台锐减至 213 台,节省 82%资源,并支持单 GPU 同时高效服务多达 7 个 LLM!该成果已被操作系统顶会 SOSP ’25 接收,并已在阿里云百炼平台上线 Beta 服务。

聊聊大模型推理系统之Aegaeon:用Token级自动扩缩容实现单GPU服务7个模型高效并发推理!图3

论文链接:https://dl.acm.org/doi/pdf/10.1145/3731569.3764815


核心看点

Aegaeon 直击当前多模型 LLM 服务中的资源效率瓶颈。传统方案要么受限于 GPU 显存,只能同时加载 2-3 个模型(多路复用方案);要么采用请求级自动扩缩容(request-level auto-scaling),因 LLM 请求执行时间长,导致大量模型“排队等待”,引发严重的队头阻塞(Head-of-Line Blocking, HOL),SLO 频频违约。

聊聊大模型推理系统之Aegaeon:用Token级自动扩缩容实现单GPU服务7个模型高效并发推理!图4

Aegaeon 的突破在于将自动扩缩容的粒度从“请求”细化到“Token”。通过预占式扩缩容(preemptive auto-scaling),系统能在新请求到达时,立即为高优先级任务腾出 GPU 资源,显著缓解 HOL 问题。配合前缀填充(Prefill)与解码(Decoding)阶段的解耦调度,以及一系列底层优化,Aegaeon 将自动扩缩容开销降低 97% ,实测吞吐量(goodput)提升1.5–9 倍,可支撑的请求到达率提高2–2.5 倍


研究背景

当前,模型市场的兴起带来了前所未有的 LLM 多样性,但其工作负载呈现典型的“长尾分布”:极少数热门模型(如Llama、Qwen)承受突发流量,而超过 90%的模型调用频率极低。若为每个模型分配专用 GPU 实例,会造成灾难性的资源浪费。

现有解决方案主要分两类:

  • 多路复用(Multiplexing):如,将多个模型实例放在同一 GPU 上。但受限于 GPU 显存(如 80GB 的 A100 最多容纳两个 14B 模型),池化效率低下。
  • 自动扩缩容(Auto-scaling):如ServerlessLLM,按需从主机内存或 SSD 加载模型。然而,其扩缩容操作仅在请求结束后触发,面对长执行时间的 LLM 请求,大量模型被迫等待,无法实现真正的高效池化。

Aegaeon 的创新切入点正是打破“请求级”调度的桎梏,提出Token 级自动扩缩容,从根本上解决队头阻塞问题,释放 GPU 池化的全部潜力。


核心贡献

1. 首创 Token 级调度与扩缩容协同机制

聊聊大模型推理系统之Aegaeon:用Token级自动扩缩容实现单GPU服务7个模型高效并发推理!图5

Aegaeon 设计了一套Token 级调度器,将 LLM 推理的两个阶段——计算密集的前缀填充(Prefill)和时延敏感的解码(Decoding)——进行解耦调度(Disaggregated Scheduling)。

  • Prefill 阶段:采用分组 FCFS 调度,将同一模型的请求聚合成组,减少不必要的模型切换,有效控制首 Token 延迟(Time-To-First-Token, TTFT)。
  • Decoding 阶段:采用加权轮询调度,利用 Token 流的可缓冲特性,动态分配时间片,在保障Token 间延迟(Time-Between-Tokens, TBT)SLO 的同时,最大化 GPU 利用率。

2. 全栈优化实现高效预占式扩缩容

聊聊大模型推理系统之Aegaeon:用Token级自动扩缩容实现单GPU服务7个模型高效并发推理!图6
聊聊大模型推理系统之Aegaeon:用Token级自动扩缩容实现单GPU服务7个模型高效并发推理!图7

为支撑 Token 级调度,Aegaeon 对自动扩缩容流程进行了深度优化,将开销从数十秒降至亚秒级(降低 97%):

  • 组件复用:推理引擎(如vLLM)的分布式执行器、分词器等组件只需初始化一次,避免重复开销。
  • 显式内存管理:通过自管理 VRAM 缓冲区统一 CPU KV 缓存(Unified CPU KV Cache),采用slab 分配策略,彻底消除内存碎片和垃圾回收(GC)延迟。
  • 细粒度 KV 缓存同步:利用CUDA 事件(CUDA events)对 KV 缓存的换入/换出操作进行精确同步,在保证数据一致性的前提下,实现异步流水线传输,将数据移动开销降至最低。

3. 实证成果显著,已落地生产环境

聊聊大模型推理系统之Aegaeon:用Token级自动扩缩容实现单GPU服务7个模型高效并发推理!图8

在真实生产环境中,Aegaeon 已成功服务于数十个参数规模从 1.8B 到 72B 的模型。部署数据显示:

  • GPU 资源需求从 1192 台降至 213 台,节省82% 。
  • GPU 平均利用率从13.3%~33.9% 提升至 48.1% ,且无 SLO 违约
  • 在标准测试中,相比ServerlessLLM和MuxServe,Aegaeon 的吞吐量(goodput)最高提升9 倍,可支撑的请求率提高2.5 倍,并首次实现单 GPU 服务 7 个模型的高效池化。
聊聊大模型推理系统之Aegaeon:用Token级自动扩缩容实现单GPU服务7个模型高效并发推理!图9

行业意义

Aegaeon 的研究成果对当前火热的大模型即服务(MaaS)和Serverless AI技术路线具有重要推动作用。它不仅为云服务商提供了降低运营支出(OPEX)的可行方案,也契合国家倡导的绿色计算与碳中和政策,通过极致的资源利用效率减少能源浪费。

更重要的是,Aegaeon 证明了细粒度、SLO 感知的调度是解锁 LLM 服务潜力的关键。这一思路有望引发产业界对推理系统架构的重新思考,从“以模型为中心”转向“以 Token 流为中心”,从而推动整个AI 基础设施向更高效、更智能的方向变革。

论文链接Aegaeon: Effective GPU Pooling for Concurrent LLM Serving on the Market[1]

> 本文由 Intern-S1 等 AI 生成,机智流编辑部校对

参考资料
[1] 

Aegaeon: Effective GPU Pooling for Concurrent LLM Serving on the Market: https://dl.acm.org/doi/abs/10.1145/3731569.3764815



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
GPU
more
英特尔打造高效异构 AI 系统:结合自家 Gaudi3 AI 加速器与英伟达 B200 GPU
GPU贸易警示录:从暴利到薄利,智算赛道门槛浮出水面
热点关注丨单块GPU上跑出实时3D宇宙,李飞飞世界模型新成果震撼问世
英伟达正式推出下一代GPU
历史突破!首款全国产通用GPU芯片发布,实物曝光
搭载80万张GPU,甲骨文推出云端最大规模算力中心 | 区势·AI
Vortex:仅 5 条指令扩展的 RISC-V SIMT GPGPU 开源全栈实现
英伟达失守中国区!推理需求爆发,国产GPU抢滩上市
国产GPU迎来破晓时刻,剑指英伟达H100
与OpenAI签订巨额合作,博通股价大涨!剑指英伟达——ASIC 替代 GPU!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号