华为重磅推出UCM技术，或降低对HBM依赖

当前，人工智能已步入发展深水区，AI推理正成为下一个爆发式增长的关键阶段，推理体验和推理成本成为了衡量模型价值的黄金标尺。

但“推不动”“推得慢”“推得贵”（运算成本太高）等成为了AI推理过程中遇到的难题。

近日，华为重磅推出了其AI推理创新技术UCM（Unified Cache Manager，推理记忆数据管理器）。旨在推动AI推理体验升级，提升推理性价比，加速AI商业正循环。

值得注意的是，据媒体报道，UCM技术有望缓解当前因HBM（高带宽内存）资源短缺导致的任务停滞与响应延迟问题，为AI应用提供更流畅的体验，从而减少行业对HBM的过度依赖。

UCM技术以KV Cache为中心，融合了多类型缓存加速算法工具，对推理过程中产生的KV Cache记忆数据进行分级管理，旨在扩大推理上下文窗口，实现高吞吐、低延迟的推理体验，同时降低每Token的推理成本。

据华为官方介绍，UCM技术具备智能分级缓存能力，可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动；同时融合多种稀疏注意力算法，实现存算深度协同，使长序列场景下TPS（每秒处理token数）提升2-22倍，显著降低每Token推理成本。

同时，依托UCM层级化自适应的全局前缀缓存技术，系统能直接调用KV缓存数据，避免重复计算，使首Token时延最大降低90%。同时，UCM将超长序列Cache分层卸载至外置专业存储，通过算法创新突破模型和资源限制，实现推理上下文窗口10倍级扩展，满足长文本处理需求。

#AI推理 #华为 #UCM #HBM

▶ 关于我们

TrendForce集邦咨询是一家全球高科技产业研究机构，研究领域涵盖存储器、AI服务器、集成电路与半导体、晶圆代工、显示面板、LED、AR/VR、新能源（含太阳能光伏、储能和电池）、AI机器人及汽车科技等前沿科技领域。凭借多年深耕，集邦致力于为政企客户提供前瞻性的行业研究报告、产业分析、项目规划评估、企业战略咨询及品牌整合营销服务，是高科技领域值得信赖的决策伙伴。

上下滑动查看

发现“分享”和“赞”了吗，戳我看看吧