剑指HBM，华为AI新技术UCM来了！

本文由半导体产业纵横（ID：ICVIEWS）综合

UCM不仅着眼当下解决当前推理加速问题，还面向未来设计。

资讯配图

今日，华为在“2025金融AI推理应用落地与发展论坛”上发布其AI推理创新技术UCM（推理记忆数据管理器），通过创新架构设计降低对高带宽内存（HBM）的依赖，提升国产大模型推理性能，推动AI产业自主化进程。

华为公司副总裁、数据存储产品线总裁周跃峰表示，该技术以KV Cache为中心，融合了多类型缓存加速算法工具，对推理过程中产生的KV Cache记忆数据进行分级管理，旨在扩大推理上下文窗口，实现高吞吐、低时延的推理体验，同时降低每Token的推理成本。

据介绍，推理体验直接关系到用户与AI交互时的感受，包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面。当前，随着AI产业已从“追求模型能力的极限”转向“追求推理体验的最优化”，推理体验直接关联用户满意度、商业可行性等，成为衡量模型价值的黄金标尺。

但在 AI 行业化落地的过程中，推理环节主要面临：推不动、推得慢、推得贵三大挑战。比如，将一篇较长的文章放入推理系统时，系统可能看了前面忘了后面，看了后面又忘了前面，这是因为推理窗口相对较小，难以处理长文本。同时，由于基础设施投资的差距，目前中国互联网大模型的首 Token 时延普遍慢于美国互联网头部企业，而且在每秒或一定时间内，中国头部互联网提供的推理 Token 数也远少于美国头部互联网。因此，改进推理系统的效率和体验成了重要课题。

UCM 作为华为与银联联合创新推出的解决方案，相对于过去试图通过增加 HBM 和内存来提升 AI 推理效率和性能的方式，是一次有效的突破。就像人类的思考能力与记忆能力密切相关，既需要记得多，也需要记得快，AI 推理系统的记忆同样关键。

AI 推理系统的记忆主要分为三部分：高性能缓存 HBM、内存 DRAM，这两部分基本都在计算服务器中；还有一部分是过去未被充分利用的专业共享存储。UCM 推理记忆数据管理器通过一系列算法，将推理过程中不同延时要求的数据放在不同的记忆体中。实时记忆数据放在 HBM 中，短期记忆数据放在 DRAM 中，长期记忆数据与外部知识放在SSD中，以此极大提升整个系统的效率和 AI 推理性能。

作为软件系统，UCM 主要由三部分构成。顶层是与业界流行推理框架对接的连接器，能连接华为的 Mind IE等推理框架，实现良好协同。中间部分是运行在计算服务器中的加速程序，负责对缓存记忆数据进行分级缓存管理，是核心部分。最后一部分是与专业共享存储相结合的协同器，它能提升专业存储的直通效率并降低时延，让三级存储协同工作。