随着大模型训练与推理任务对算力需求的爆发式增长,智算中心已成为支撑人工智能产业化发展的核心基础设施。然而,在算力规模不断扩大的同时,异构硬件、异构计算框架与异构存储的共存,使得智算中心在资源调度、数据流动和任务协同面临着前所未有的挑战。
在传统智算中心里,计算、存储、网络资源往往独立管理,缺乏统一的协同机制,导致资源利用率低、任务响应慢、数据孤岛现象严重。尤其在面对千卡级、万卡级的大规模训练任务时,如何实现存、管、算的高效协同,已成为影响整个智算中心系统性能与成本的关键。
10月28日19点,智猩猩社群公开课超节点与智算集群系列第13期将开讲,邀请到极道科技CTO张京城主讲,主题为《AI驱动的存管算协同智算中心操作系统》。
本次公开课,张京城老师首先会阐述智算中心面临的挑战,并结合极道科技的ALAMO分布式文件存储、MetaView非结构化数据管理系统、Achelous多融合计算平台三大产品,系统讲解AI驱动的智算中心存管算协同技术路线。之后,张京城老师还将分享多地智算中心的协同实践和典型案例。

第13期信息
主 题