大家在使用 AI 工具的过程中会发现,有的 AI 反应快得像抢答,有的半天蹦不出一个字,体验差得不是一星半点。这背后的门道,就藏在 “推理技术” 里。
8 月 12 日,华为搞了个大动作,发布了一项超厉害的 AI 推理黑科技 —— UCM,也就是推理记忆数据管理器。
此技术有望让推理时延大幅降低,成本也跟着减少,推理效率更是能大幅提升,堪称 AI 超级加速器。
看组数据,国外那些主流 AI 模型,一秒能输出 200 多个词,延迟低到只有 5 毫秒,快得让人以为开了挂。而国内,大多一秒连 60 个词都费劲,延迟能飙到 50-100 毫秒。
这一对比,差距就出来了。所以,解决推理效率和用户体验这两大难题是非常迫切的。
那 UCM 到底是啥狠角色?简单来说,它就是 AI 的 "记忆管家"。AI 思考时会记一堆 "临时笔记"(业内叫 KV Cache),UCM 能把这些笔记分好类、排好序,需要的时候一秒就能调出来,不用再瞎琢磨浪费时间。这么一来,推理上下文窗口扩大了,高吞吐、低时延的推理体验就这么实现了,每 Token 推理成本也降低了,可谓一箭三雕。
从具体技术实现路径来看,它有个 “全局前缀缓存” 的本事,就像你跟 AI 唠嗑时,它不用每次都从头回忆,直接调取之前的聊天记录,首条回复的延迟最多能砍 90%。而且它还特聪明,能把重要的记忆存在不同的 “抽屉” 里,处理长文本时,每秒能搞定的字数是原来的 2-22 倍,能记住的东西也一下子多了 10 倍不止。
这技术已经在银联试过水了。银联的 “客户之声” “营销策划” “办公助手” 这三个场景,用上 UCM 之后效果立竿见影。
同时,随着 AI 应用越来越深入各种实际场景,处理的文字量疯了一样涨。就说火山引擎,去年 5 月每天处理的字数才 16.4 万亿,今年直接飙了 137 倍,背后的服务器维护、电费都是天文数字。想让 AI 用着顺,就得砸更多钱搞算力,这平衡太难找了,整个行业都在犯愁。
面对此局,华为宣布 9 月要把 UCM 开源。到时候先在魔擎社区放出来,之后再给其他主流社区,还会共享给业内所有 Share Everything(共享架构)存储厂商和生态伙伴。
华为希望行业里更多企业一起努力,推动推理框架、标准的形成。

文章推荐




活动推荐

商务合作
Alice:13122434666(同微)

分享

收藏

点赞

在看