别骂AI卡了!华为新推理技术救场,9月开源免费给全行业用

维科网人工智能 2025-08-12 19:38

大家在使用 AI 工具的过程中会发现,有的 AI 反应快得像抢答,有的半天蹦不出一个字,体验差得不是一星半点。这背后的门道,就藏在 “推理技术” 里。

8 月 12 日,华为搞了个大动作,发布了一项超厉害的 AI 推理黑科技 —— UCM,也就是推理记忆数据管理器。

此技术有望让推理时延大幅降低,成本也跟着减少,推理效率更是能大幅提升,堪称 AI 超级加速器。

看组数据,国外那些主流 AI 模型,一秒能输出 200 多个词,延迟低到只有 5 毫秒,快得让人以为开了挂。而国内,大多一秒连 60 个词都费劲,延迟能飙到 50-100 毫秒。

这一对比,差距就出来了。所以,解决推理效率和用户体验这两大难题是非常迫切的。

那 UCM 到底是啥狠角色?简单来说,它就是 AI 的 "记忆管家"。AI 思考时会记一堆 "临时笔记"(业内叫 KV Cache),UCM 能把这些笔记分好类、排好序,需要的时候一秒就能调出来,不用再瞎琢磨浪费时间。这么一来,推理上下文窗口扩大了,高吞吐、低时延的推理体验就这么实现了,每 Token 推理成本也降低了,可谓一箭三雕。

从具体技术实现路径来看,它有个 “全局前缀缓存” 的本事,就像你跟 AI 唠嗑时,它不用每次都从头回忆,直接调取之前的聊天记录,首条回复的延迟最多能砍 90%。而且它还特聪明,能把重要的记忆存在不同的 “抽屉” 里,处理长文本时,每秒能搞定的字数是原来的 2-22 倍,能记住的东西也一下子多了 10 倍不止。

这技术已经在银联试过水了。银联的 “客户之声” “营销策划” “办公助手” 这三个场景,用上 UCM 之后效果立竿见影。

同时,随着 AI 应用越来越深入各种实际场景,处理的文字量疯了一样涨。就说火山引擎,去年 5 月每天处理的字数才 16.4 万亿,今年直接飙了 137 倍,背后的服务器维护、电费都是天文数字。想让 AI 用着顺,就得砸更多钱搞算力,这平衡太难找了,整个行业都在犯愁。

面对此局,华为宣布 9 月要把 UCM 开源。到时候先在魔擎社区放出来,之后再给其他主流社区,还会共享给业内所有 Share Everything(共享架构)存储厂商和生态伙伴。

华为希望行业里更多企业一起努力,推动推理框架、标准的形成。资讯配图


   
资讯配图

文章推荐


资讯配图

存储圈掐架!江波龙起诉佰维,索赔121万


资讯配图

喜报!北京AI语音龙头云知声在港交所成功上市


资讯配图

抱DeepSeek大腿、年收近6亿!上海云服务商喜冲港交所

   
资讯配图

活动推荐


  
资讯配图

商务合作

Alice:13122434666(同微)

Email:liushuimiao@ofweek.com

资讯配图

分享

资讯配图

收藏

资讯配图

点赞

资讯配图

在看  

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 开源 华为
more
华为宣布 CANN 全面开源开放,共建昇腾生态
阿里开源两款4B小模型:手机电脑都能用,比GPT-4.1-nano还强
量智融合!量子神经网络开发套件正式开源
全网评测,GPT登顶开源第一!
全面优于π0 !全球首个端到端全身控制VLA模型G-0全面开源,直击七大“关键问题”
深圳开发者爽了!瑞萨MCU/立创开源/13万转电机/国产机器视觉崛起!
gpt-oss:OpenAI 终于认可了开源生态
从 DeepSeek-R1 到OpenAI gpt-oss,开源背后,是中美AI罕见正和博弈
OpenAI开源了!手机也能流畅跑
一夜颠覆Sora神话,H200单卡5秒出片!全华人团队开源AI引爆视频圈
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号