华为重磅推出UCM技术,或降低对HBM依赖

全球半导体观察 2025-08-18 13:10

当前,人工智能已步入发展深水区,AI推理正成为下一个爆发式增长的关键阶段,推理体验和推理成本成为了衡量模型价值的黄金标尺。


但“推不动”“推得慢”“推得贵”(运算成本太高)等成为了AI推理过程中遇到的难题。


近日,华为重磅推出了其AI推理创新技术UCM(Unified Cache Manager,推理记忆数据管理器)。旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。


值得注意的是,据媒体报道,UCM技术有望缓解当前因HBM(高带宽内存)资源短缺导致的任务停滞与响应延迟问题,为AI应用提供更流畅的体验,从而减少行业对HBM的过度依赖。


UCM技术以KV Cache为中心,融合了多类型缓存加速算法工具,对推理过程中产生的KV Cache记忆数据进行分级管理,旨在扩大推理上下文窗口,实现高吞吐、低延迟的推理体验,同时降低每Token的推理成本。


据华为官方介绍,UCM技术具备智能分级缓存能力,可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动;同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2-22倍,显著降低每Token推理成本。


同时,依托UCM层级化自适应的全局前缀缓存技术,系统能直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90%。同时,UCM将超长序列Cache分层卸载至外置专业存储,通过算法创新突破模型和资源限制,实现推理上下文窗口10倍级扩展,满足长文本处理需求。


#AI推理 #华为 #UCM #HBM



资讯配图
资讯配图


 关于我们

资讯配图

TrendForce集邦咨询是一家全球高科技产业研究机构,研究领域涵盖存储器、AI服务器、集成电路与半导体、晶圆代工、显示面板、LED、AR/VR、新能源(含太阳能光伏、储能和电池)、AI机器人及汽车科技等前沿科技领域。凭借多年深耕,集邦致力于为政企客户提供前瞻性的行业研究报告、产业分析、项目规划评估、企业战略咨询及品牌整合营销服务,是高科技领域值得信赖的决策伙伴。

上下滑动查看

资讯配图
资讯配图

发现“分享”“赞”了吗,戳我看看吧

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
华为
more
麒麟处理器显示!华为Pura80鸿蒙OS 5.1更新
华为余承东:鸿蒙9月底看齐iOS安卓,很少说遥遥领先
广汽、华为合作造车,获6亿输血!
今天,华为新品三连发,平板手表齐上阵
华为终于官宣,Mate40确定升级鸿蒙5.0
中美智驾大PK!四大魔鬼场景实测,华为激光雷达对纯视觉,谁更强?
2199元,华为今天的发布会,绝对是来捣乱的
华为Mate80果然炸裂,后悔加价买Mate70Pro
华为再次官宣:8月15日,新机发布!
热点丨华为推AI推理技术UCM,解决当下推理加速及未来设计难题
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号