当前,人工智能已步入发展深水区,AI推理正成为下一个爆发式增长的关键阶段,推理体验和推理成本成为了衡量模型价值的黄金标尺。
但“推不动”“推得慢”“推得贵”(运算成本太高)等成为了AI推理过程中遇到的难题。
近日,华为重磅推出了其AI推理创新技术UCM(Unified Cache Manager,推理记忆数据管理器)。旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。
值得注意的是,据媒体报道,UCM技术有望缓解当前因HBM(高带宽内存)资源短缺导致的任务停滞与响应延迟问题,为AI应用提供更流畅的体验,从而减少行业对HBM的过度依赖。
UCM技术以KV Cache为中心,融合了多类型缓存加速算法工具,对推理过程中产生的KV Cache记忆数据进行分级管理,旨在扩大推理上下文窗口,实现高吞吐、低延迟的推理体验,同时降低每Token的推理成本。
据华为官方介绍,UCM技术具备智能分级缓存能力,可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动;同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2-22倍,显著降低每Token推理成本。
同时,依托UCM层级化自适应的全局前缀缓存技术,系统能直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90%。同时,UCM将超长序列Cache分层卸载至外置专业存储,通过算法创新突破模型和资源限制,实现推理上下文窗口10倍级扩展,满足长文本处理需求。



发现“分享”和“赞”了吗,戳我看看吧