热点丨华为推AI推理技术UCM,解决当下推理加速及未来设计难题

AI芯天下 2025-08-18 20:30
资讯配图

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发




资讯配图



前言
从应用需求视角,越来越多的企业聚焦于模型推理的性能表现,这直接关系到商业落地与盈利潜力。

然而在推理这一核心环节,中国正面临显著瓶颈。国内基础设施投资远低于美国,同时还受限于算力卡供应受限、高带宽内存(HBM)价格飙升及出口禁令等挑战。

中国企业面临双重压力:一方面,国内互联网企业在AI基础设施上的投入仅为美国的十分之一,中小企业预算有限,难以负担高端HBM;

另一方面,出口管制限制了获取先进算力卡和HBM的机会,无法通过无限堆卡解决问题。更重要的是,面对大模型PB级海量数据,传统推理架构过度依赖HBM的瓶颈日益突出。



作者 | 方文三
图片来源 |  网 络 

资讯配图

推动AI推理进入商业正循环,成国内最紧迫任务


随着Agentic AI时代来临,模型规模扩张、长序列需求激增及推理任务并发量上升。


KV Cache容量增长已超出HBM承载极限,频繁内存溢出导致推理[失忆]现象,迫使GPU反复计算,引发延迟卡顿。


数据显示,海外主流大模型输出速度在200 tokens/s左右(时延约5ms),而中国普遍低于60 tokens/s(时延50-100ms),最大差距达10倍。


在上下文窗口支持上,海外模型如GPT-5和Claude 3.5普遍支持百万级Token,国内领先模型仅50万Token,且在长文本分析中遗漏关键信息的概率超过50%。


这种性能差距不利于中国AI的规模化推广,长期可能形成商业恶性循环,加剧企业投入减少、投资放缓,在国际AI竞争中落后。


因此,如何在不大幅增加算力基础设施投入的前提下,显著改善推理体验,推动AI推理进入商业正循环,已成为中国当前最紧迫的任务。


资讯配图
华为推AI推理技术UCM,解决当下推理加速问题


近期,在[2025金融AI推理应用落地与发展论坛]上,华为发布了AI推理创新技术UCM(推理记忆数据管理器)。


该技术借助创新架构降低对HBM的依赖,提升国产大模型推理效率,加速AI产业自主化进程。


华为副总裁、数据存储产品线总裁周跃峰强调,UCM以键值缓存(KV Cache)为核心,融合多种缓存加速算法工具,对推理生成的KV Cache数据进行分层管理,旨在扩展推理上下文窗口,提供高吞吐量、低延迟的推理服务,同时降低每个Token的处理成本。


华为UCM技术的核心理念清晰明:它避免将所有[记忆]数据都塞入昂贵且稀缺的HBM内存,而是依据数据访问频率进行分层管理。


高频使用的热数据保留在高速存储区,低频使用的冷数据则迁移至成本更低、容量更易扩展的存储设备中。


这种策略显著减轻了HBM的负担,在确保模型响应速度的同时大幅提升了记忆容量。


尤为关键的是,UCM通过软件层面对存储调度规则进行革新,将其封装成一套可适配多种推理引擎的统一解决方案。


据华为披露,该技术能显著提升长对话或长文本的处理效率,将首个字符生成时间缩短至原来的十分之一,并将模型的记忆范围扩展至过去的十倍。


资讯配图

解决内存结构失衡,HBM需要UCM来破局


AI深入日常应用的当下,大模型的[推理]过程——即AI理解问题并生成答案的关键环节——才是真正创造价值的核心。然而,尤其在中文互联网环境,推理体验常不尽如人意。


华为昇腾计算产品部总裁周跃峰博士指出,当前模型训练与推理的效率均以Token数量为衡量标准,而[因基础设施投入的差距,国内大模型的首Token响应延迟普遍高于海外头部模型]。


数据显示,海外主流模型单用户输出速度已达200 Tokens/s(延迟5ms),而国内普遍低于60 Tokens/s(延迟50-100ms)。


这意味着国内用户在同等问题下获得响应的速度更慢,尤其在处理长对话或文档时,模型常出现[遗忘]上下文的现象——阅读后文时丢失前文信息。


造成这种差距的核心瓶颈之一,正是AI推理的[记忆能力]限制。


传统推理系统几乎完全依赖HBM和DRAM,却忽视了SSD等低成本、大容量存储的价值。


这就如同仅依赖大脑和短期记忆,拒绝使用笔记本与外部存档,结果要么无法记住完整信息,要么让宝贵的内存空间被大量低频数据占据。


华为UCM技术正是为解决这种[内存结构失衡]而生。


它通过智能算法,在推理过程中依据数据的热度和访问延迟需求进行分级存储:实时必需的热数据置于HBM;


即将使用但非紧急的数据存于DRAM;而体量庞大、访问稀疏的冷数据则下沉至SSD。


由此,HBM得以专注于最高优先级任务,彻底摆脱冷数据的无效占用,从而充分释放整个系统的推理效能。


资讯配图

针对AI推理的[不可能三角]


当前,AI推理在成本、效率和性能三者间难以兼顾的困境,已成为行业发展的核心瓶颈。


要理解这一现象,需从AI推理的关键机制——KV Cache(键值缓存)切入。


通俗而言,KV Cache相当于AI的[短期记忆系统],通过临时存储对话中的关键信息,避免重复计算,确保多轮对话和长文档分析等场景的流畅体验。


然而该机制在提升效率的同时,也带来三大核心问题:


①KV Cache占用大量GPU显存,在现有算力设施不足的情况下,导致复杂数据或长文本处理时出现信息遗漏,影响推理准确性。


②随着任务复杂度提升,KV Cache随文本量增长而膨胀,直接拖慢处理速度。多用户并发时尤为明显,表现为响应延迟或生成中断。


③GPU内存限制迫使可复用的KV Cache被频繁丢弃重建,造成算力资源浪费,高昂成本使中小企业难以负担,阻碍AI服务规模化。


资讯配图

针对上述痛点,华为最新推出的UCM实现突破性创新,该技术具备三大核心能力:


①分级存储:将KV Cache按访问热度分布在HBM(热数据)、DRAM(温数据)和SSD(冷数据)三级存储介质。


②算法优化:融合稀疏注意力算法,使AI精准聚焦关键信息。


③系统协同:通过推理引擎插件、功能库和高性能存取适配器实现全栈优化。


在结构设计上,华为的UCM解决方案主要由三大核心模块组成:

连接各类引擎与计算资源的推理引擎插件(Connector)、支持多级键值缓存管理和加速算法的功能库(Accelerator),以及高效键值缓存访问适配器(Adapter)。


这些模块协同实现了推理框架、计算能力和存储系统的三层优化。


通过标准化的开放接口,UCM能够兼容多种推理引擎框架、计算资源及存储方案。


对于推理框架开发者,UCM的接口简化了技术集成过程,助力提升框架性能和竞争力;


实测数据显示,UCM在长序列场景下使系统吞吐量提升2-22倍,显著降低单Token推理成本。


资讯配图
尾:


华为的UCM技术更像是一种[系统级补充方案],其目的并非替代HBM,而是通过降低对HBM的依赖,将HBM的优势精准应用于更合适的场景。


在该技术支持下,企业能在维持算力投入不变的前提下,仅需增加少量外置存储投资,即可实现缓存性能的[原地升级]。


长远来看,华为推出并开源UCM代表系统工程的突破,它将驱动中国AI产业进入[体验优化-用户增加-投资增长-技术迭代]的良性循环。


这场围绕[记忆机制]的技术突破,或将成为中国AI产业落地的关键转折点。


部分资料参考:智能Pro:《华为祭出AI推理黑科技UCM!海力士难了?不一定》,观察者网:《AI落地的关键堵点,华为用"黑科技"打通了》


本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。



END


推荐阅读:

资讯配图
资讯配图

资讯配图

商务合作请加微信勾搭:
18948782064

请务必注明:

「姓名 + 公司 + 合作需求」


资讯配图 

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 华为
more
广汽、华为合作造车,获6亿输血!
突发!华为第五界首款车,“尚界”价格曝光,这定价太猛了吧?
1685元起,华为新机官宣:8月21日,正式开售!
华为鸿蒙5.0实现全栈自研,央视:打破“被卡脖子”局面
华为新机发布:8月21日,正式开售!
华为Pura80系统显示麒麟处理器,后续新机待发布
英伟达Dynamo VS 华为UCM!AI大模型推理优化,专家如何解读
华为再次官宣:8月15日,新机发布!
大空间配私人按摩师,还有个华为老司机,这车要火了!
狐讯 | 美团与华为联合共建“骑手补给站”;网传宝骏汽车用上华为智驾
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号