阿里云计算池化方案：英伟达H20 GPU用量削减82%

电子发烧友网综合报道，在当前人工智能（AI）领域，算力资源的高效利用已成为各大科技公司争相追逐的目标。近日，阿里云提出的创新计算池化解决方案“Aegaeon”成功入选顶级学术会议SOSP2025。

SOSP（操作系统原理研讨会）是由ACM SIGOPS主办的计算机系统领域顶级学术会议，每年仅收录数十篇论文，被誉为计算机操作系统领域的“奥斯卡”。

在过去的几个月里，阿里云对Aegaeon系统进行了为期超过三个月的Beta测试，结果显示，该系统在服务参数量高达720亿的大型AI模型时，所需的英伟达H20 GPU数量从1192个减少至213个，削减比例高达82%。

这一显著的减少不仅意味着阿里云可以大幅降低硬件采购成本，更是为那些依赖成千上万张GPU进行模型服务的大型企业提供了宝贵的经验与借鉴。以服务数十个720亿参数大模型为例，原本需要1192张GPU才能完成的任务，现在仅需213张即可胜任，硬件成本锐减超80%。

通过数据分析，阿里云发现，现有模型市场中，少数热门模型（例如阿里的Qwen）承载了绝大多数用户请求，而大量不常被调用的“长尾”模型却各自占用大量GPU资源。数据显示，曾有17.7%的GPU算力仅用于处理1.35%的请求，资源闲置现象相当严重。

Aegaeon系统通过GPU资源池化的方式，打破了传统“一个模型绑定一个GPU”的低效模式，实现了更高效的资源配置。具体而言，Aegaeon将多个GPU的计算、内存等抽象成一个资源池，按需分配给不同的任务，避免了单个任务独占资源导致的闲置。

Aegaeon系统的核心创新点在于Token级调度。该系统的多模型混合服务功能能够在每次生成下一个token时动态决定是否切换模型，从而实现精细化管理。通过组件复用、显存精细化管理以及KV缓存同步优化等全栈技术，Aegaeon将模型切换的开销降低了97%。

这一技术确保了token级调度的实时性，使得模型切换响应时间可支持亚秒级的快速反应。据介绍，Aegaeon系统支持单个GPU同时服务多达7个不同模型，相比于现有主流方案，其有效吞吐量提升了1.5至9倍，处理能力提高了2至2.5倍。

Aegaeon的落地将推动算力租赁行业从“按卡计费”转向“按实际使用量计费”，企业可通过弹性调度降低闲置成本。据测算，采用该技术的云服务商可将算力租赁价格降低40%-60%，加速AI普惠化。

随着AI技术的不断进步，对算力的需求将持续增长。GPU资源的高效利用，是实现AI规模化应用的关键。阿里云的Aegaeon方案，为AI算力效率提升提供了新的思路和解决方案，未来有望在更多云计算平台和AI应用场景中得到推广和应用。

阿里云计算池化方案：英伟达H20 GPU用量削减82%图1

声明：本文由电子发烧友综合报道，转载请注明以上来源。如需入群交流，请添加微信elecfans999，投稿爆料采访需求，请发邮箱huangjingjing@elecfans.com。