阿里云计算池化方案:英伟达H20 GPU用量削减82%

电子发烧友网 2025-10-23 07:00
电子发烧友网综合报道,在当前人工智能(AI)领域,算力资源的高效利用已成为各大科技公司争相追逐的目标。近日,阿里云提出的创新计算池化解决方案“Aegaeon”成功入选顶级学术会议SOSP2025。

SOSP(操作系统原理研讨会)是由ACM SIGOPS主办的计算机系统领域顶级学术会议,每年仅收录数十篇论文,被誉为计算机操作系统领域的“奥斯卡”。

在过去的几个月里,阿里云对Aegaeon系统进行了为期超过三个月的Beta测试,结果显示,该系统在服务参数量高达720亿的大型AI模型时,所需的英伟达H20 GPU数量从1192个减少至213个,削减比例高达82%。

这一显著的减少不仅意味着阿里云可以大幅降低硬件采购成本,更是为那些依赖成千上万张GPU进行模型服务的大型企业提供了宝贵的经验与借鉴。以服务数十个720亿参数大模型为例,原本需要1192张GPU才能完成的任务,现在仅需213张即可胜任,硬件成本锐减超80%。

通过数据分析,阿里云发现,现有模型市场中,少数热门模型(例如阿里的Qwen)承载了绝大多数用户请求,而大量不常被调用的“长尾”模型却各自占用大量GPU资源。数据显示,曾有17.7%的GPU算力仅用于处理1.35%的请求,资源闲置现象相当严重。

Aegaeon系统通过GPU资源池化的方式,打破了传统“一个模型绑定一个GPU”的低效模式,实现了更高效的资源配置。具体而言,Aegaeon将多个GPU的计算、内存等抽象成一个资源池,按需分配给不同的任务,避免了单个任务独占资源导致的闲置。

Aegaeon系统的核心创新点在于Token级调度。该系统的多模型混合服务功能能够在每次生成下一个token时动态决定是否切换模型,从而实现精细化管理。通过组件复用、显存精细化管理以及KV缓存同步优化等全栈技术,Aegaeon将模型切换的开销降低了97%。

这一技术确保了token级调度的实时性,使得模型切换响应时间可支持亚秒级的快速反应。据介绍,Aegaeon系统支持单个GPU同时服务多达7个不同模型,相比于现有主流方案,其有效吞吐量提升了1.5至9倍,处理能力提高了2至2.5倍。

Aegaeon的落地将推动算力租赁行业从“按卡计费”转向“按实际使用量计费”,企业可通过弹性调度降低闲置成本。据测算,采用该技术的云服务商可将算力租赁价格降低40%-60%,加速AI普惠化。

随着AI技术的不断进步,对算力的需求将持续增长。GPU资源的高效利用,是实现AI规模化应用的关键。阿里云的Aegaeon方案,为AI算力效率提升提供了新的思路和解决方案,未来有望在更多云计算平台和AI应用场景中得到推广和应用。

阿里云计算池化方案:英伟达H20 GPU用量削减82%图1

声明:本文由电子发烧友综合报道,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱huangjingjing@elecfans.com。


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
GPU 云计算 英伟达
more
刚刚!国产GPU龙头IPO成功过会
热点关注丨DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”
搭载80万张GPU,甲骨文推出云端最大规模算力中心 | 区势·AI
全球首个GB300巨兽救场!一年烧光70亿,OpenAI内斗GPU惨烈
发力图形工作站和AI推理市场,英特尔大显存GPU亮相湾芯展
GPU成本高企、显存墙难破,国产存储如何推动AI普惠化进程?
热点关注丨单块GPU上跑出实时3D宇宙,李飞飞世界模型新成果震撼问世
【硬件资讯】AMD与OpenAI合作达成!将为其部署6吉瓦的AMD GPU算力,但代价呢??
重大突破!阿里云:英伟达GPU用量削减82%
阿里云计算池化方案:英伟达H20 GPU用量削减82%
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号