剑指HBM,华为AI新技术UCM来了!

半导体产业纵横 2025-08-12 17:59
资讯配图

资讯配图
本文由半导体产业纵横(ID:ICVIEWS)综合

UCM不仅着眼当下解决当前推理加速问题,还面向未来设计。

资讯配图

今日,华为在“2025金融AI推理应用落地与发展论坛上发布其AI推理创新技术UCM(推理记忆数据管理器),通过创新架构设计降低对高带宽内存(HBM)的依赖,提升国产大模型推理性能,推动AI产业自主化进程。

华为公司副总裁、数据存储产品线总裁周跃峰表示,该技术以KV Cache为中心,融合了多类型缓存加速算法工具,对推理过程中产生的KV Cache记忆数据进行分级管理,旨在扩大推理上下文窗口,实现高吞吐、低时延的推理体验,同时降低每Token的推理成本。

据介绍,推理体验直接关系到用户与AI交互时的感受,包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面。当前,随着AI产业已从追求模型能力的极限转向追求推理体验的最优化,推理体验直接关联用户满意度、商业可行性等,成为衡量模型价值的黄金标尺。

但在 AI 行业化落地的过程中,推理环节主要面临:推不动、推得慢、推得贵三大挑战比如,将一篇较长的文章放入推理系统时,系统可能看了前面忘了后面,看了后面又忘了前面,这是因为推理窗口相对较小,难以处理长文本。同时,由于基础设施投资的差距,目前中国互联网大模型的首 Token 时延普遍慢于美国互联网头部企业,而且在每秒或一定时间内,中国头部互联网提供的推理 Token 数也远少于美国头部互联网。因此,改进推理系统的效率和体验成了重要课题。

UCM 作为华为与银联联合创新推出的解决方案,相对于过去试图通过增加 HBM 和内存来提升 AI 推理效率和性能的方式,是一次有效的突破。就像人类的思考能力与记忆能力密切相关,既需要记得多,也需要记得快,AI 推理系统的记忆同样关键。

AI 推理系统的记忆主要分为三部分:高性能缓存 HBM、内存 DRAM,这两部分基本都在计算服务器中;还有一部分是过去未被充分利用的专业共享存储。UCM 推理记忆数据管理器通过一系列算法,将推理过程中不同延时要求的数据放在不同的记忆体中。实时记忆数据放在 HBM 中,短期记忆数据放在 DRAM 中,长期记忆数据与外部知识放在SSD,以此极大提升整个系统的效率和 AI 推理性能。

作为软件系统,UCM 主要由三部分构成。顶层是与业界流行推理框架对接的连接器,能连接华为的 Mind IE等推理框架,实现良好协同。中间部分是运行在计算服务器中的加速程序,负责对缓存记忆数据进行分级缓存管理,是核心部分。最后一部分是与专业共享存储相结合的协同器,它能提升专业存储的直通效率并降低时延,让三级存储协同工作。

资讯配图

经大量测试和银联实际案例印证,该算法能使首 Token 时延最高降低 90%,系统吞吐率最大提升 22 倍,同时上下文推理窗口可扩展 10 倍及以上,极大提升了推理系统的效能。

资讯配图

华为计划于20259月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything (共享架构)存储厂商和生态伙伴。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
资讯配图

资讯配图


资讯配图


资讯配图

资讯配图
资讯配图
资讯配图

资讯配图资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 华为
more
华为AI突破性成果即将发布!
四激光雷达!搭载华为最新技术,又一国产王牌来袭
别骂AI卡了!华为新推理技术救场,9月开源免费给全行业用
新机:苹果折叠iPhone就长这样;王腾要买iPhone17Air;华为Mate80RS屏幕很强;国产屏下3D人脸识别手机要来了
杀入10万级别!华为又一重磅合作!
广汽华为合作造车,又一大动作!
华为智驾搭载量破百万!
华为正式官宣:8月18日,新品开售!
iPhone Fold重新设计,手里的华为Mate X6再见
华为Mate 80 RS曝光,双层OLED、钛合金中框加持
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号