告别Demo、真正跑进生产,华为新框架把Agent端到端效率拉升2.5倍

机器之心 2026-03-13 10:42
告别Demo、真正跑进生产,华为新框架把Agent端到端效率拉升2.5倍图1

大模型 Agent 正在从 Demo 走向生产:多轮推理、工具调用、长上下文记忆、并发会话同时运行…… 但也正是在这些「真实工作流」里,很多看似先进的推理加速在落地时会失效:单步推理快了,端到端却更慢;吞吐更高了,高并发下却开始抖动;压缩了上下文,Agent 反而更容易迷路、回合数暴涨。


华为诺亚方舟实验室、先进计算与存储实验室联合在最新工作中提出了AgentInfer:一个面向工业 Agent 的端到端加速框架,把「推理架构设计」和「推理服务系统」放在一起协同优化。


它不是某个单点技巧,而是一套可拆可合的系统化方案:每个模块单独启用都有收益,组合在一起仍能叠加,并且在高并发、多会话、长上下文的真实负载下依然 work。


告别Demo、真正跑进生产,华为新框架把Agent端到端效率拉升2.5倍图2



为什么 Agent 的「加速」必须从端到端出发?


在传统 LLM 服务里,我们习惯用 tokens/s、单次延迟来衡量优化。但 Agent 的本质是一个持续运行的 Think–Act–Observe 循环:



团队在分析中总结了 Agent 场景的三个典型「工业坑」:


1. 量化陷阱:单步更快但精度更差,触发大量自我修复回路,端到端时间反而上升。


告别Demo、真正跑进生产,华为新框架把Agent端到端效率拉升2.5倍图3


2. 文本总结不靠谱:大量的研究工作展示可以通过对过程信息总结来进行 token 压缩,但是本文的实测发现,很多场景中引入总结后单轮变短了,但是整体轮次变多了,甚至降低了精度。


告别Demo、真正跑进生产,华为新框架把Agent端到端效率拉升2.5倍图4


3. 记忆持久性瓶颈(KV-cache):高并发下,常见的短作业优先(SJF)会频繁淘汰长上下文会话的 KV-cache,导致下一轮被迫重算大段 prefill,延迟尖刺明显,系统吞吐和稳定性一起掉。


告别Demo、真正跑进生产,华为新框架把Agent端到端效率拉升2.5倍图5


结论很直接:Agent 的效率不是「每步快一点」,而是「更少的无效回合、更少的重算、更高的跨轮次复用」


AgentInfer:四个可独立部署、可叠加增益的模块


AgentInfer 把 Agent 的端到端瓶颈拆成四类问题,并给出四个互补模块。它们分别作用在不同层次:有的减少「用大模型的次数」,有的控制「上下文变长」,有的提升「并发下的缓存命中」,有的加速「token 级生成」。


告别Demo、真正跑进生产,华为新框架把Agent端到端效率拉升2.5倍图6


1)AgentCollab:难度感知的大小模型协作(少用大模型,但不掉质量)


核心思路是把常规工作交给小模型,把关键规划与卡住的推理交给大模型。关键不在「静态分工」,而在一个结构化的 Progress Check 自评机制:每一步判断「是否取得实质进展」,若停滞则升级到大模型救场;恢复进展后再降级回小模型继续跑。


这让系统在工业场景里更「像人」:多数时间用便宜模型推进流程,只有在真的困难段落才调用昂贵模型,从而在质量与成本之间更接近 Pareto 最优。


2)AgentCompress:语义压缩与异步蒸馏(压缩不等于删记忆)


告别Demo、真正跑进生产,华为新框架把Agent端到端效率拉升2.5倍图7


真实的深度研究 / 搜索型 Agent,上下文很快被搜索结果、网页内容、工具输出撑爆,序列长度飙升带来注意力成本激增。AgentCompress 做两件事:



这也是工业落地里非常实用的一点:压缩必须服务于「少走弯路」,而不是只追求「prompt 变短」


3)AgentSched:KV-cache 感知的混合调度(高并发下依然稳定)


告别Demo、真正跑进生产,华为新框架把Agent端到端效率拉升2.5倍图8


在多会话并发中,短请求和超长上下文请求会同时出现。纯 FCFS 会被长请求阻塞,纯 SJF 又会牺牲长会话的 KV-cache 持久性,导致反复重算前缀、延迟尖刺。


AgentSched 引入一个可解释的控制信号(shadow-price),在「优先短请求低延迟」和「优先高 KV 复用」之间自适应切换:



这解决的是「工业高并发下仍然 work」的关键:不是某一次跑得快,而是在压力上来时系统不抖、不崩、吞吐还能上去


4)AgentSAM:跨会话投机解码(把「重复模式」变成真加速)


Agent 推理中常出现高重复:同一任务多轮反复提问、相似用户请求复用模板、检索证据被多次引用。AgentSAM 用后缀自动机(SAM)把当前会话与语义相似的历史会话组合起来,为投机解码提供更高命中率的草稿;同时用异步构建避免长上下文下 SAM 构建阻塞首 token 延迟,并带有自适应开关:当 batch 太大、投机收益变差时自动回退,避免「为了投机而投机」。


工业可用性的证据:高并发下 QPS 仍能持续提升


在 BrowseComp-zh / DeepDiver 深度研究型 Agent 基准上,我们把四个模块集成到同一套服务栈中进行端到端评估。


告别Demo、真正跑进生产,华为新框架把Agent端到端效率拉升2.5倍图9


结果显示两点:


1)它不是实验室「单请求优化」,而是高并发下依然能跑的系统


在并发会话数提升时(例如从 4 提升到 16),系统仍然能稳定获得收益,QPS 提升可达 2.52×。这意味着优化不仅对单次推理有效,更能在资源争用、缓存压力、长短请求混合的真实负载里保持稳定。


2)它不是「只能全套上」,而是模块化、可组合、增益可叠加


团队做了逐步叠加实验:



这正是 AgentInfer 的设计目标:每个组件解决一类确定的工业瓶颈;组合起来仍能协同增益,而不是相互抵消


写在最后:Agent 的效率问题,本质是「系统问题」


AgentInfer 想强调的并不是「把某个指标卷到极致」,而是一个更现实的工程结论:


真正能落地的 Agent 加速,必须同时优化推理架构与推理系统,并且以端到端任务完成为目标


团队在实验中观察到:AgentInfer 能将无效 token 消耗降低 50%+,实现 1.8×–2.5× 的端到端加速,同时保持任务准确率稳定。


当 Agent 进入生产环境,决定体验的往往不是单步 tokens/s,而是「少走弯路、少重算、抗并发」。这也是我们把 AgentInfer 定位为一套 Self-Evolution Engine(自演进引擎)的原因:它让 Agent 在长周期任务与高并发环境中,依然保持效率与认知稳定。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
华为
more
华为在马德里,吹响全球反攻号角
华为降维打击!量产全球首款896线激光雷达,120米外识别14cm障碍物…
华为发布新一代超节点产品,支持8192张NPU卡高速互联
华为发布业界首款通算超节点TaiShan 950 SuperPoD,重构数据中心基础架构
华为,30亿建超级工厂!
全新奥迪A6L预售:外观大变、华为乾崑智驾、降价超10万
华为 2025 年收入超 8800 亿;雷军:小米未来 5 年攻坚 AI、芯片;大疆起诉美国 FCC | 极客早知道
工信部提示“AI养龙虾”安全隐患;小米增程SUV路测视频曝光;比亚迪再谈闪充是否会影响电池寿命;华为鸿蒙智选春季发布会定档3月10日...
荣耀前CEO赵明正式出任千里科技联席董事长,华为系高管齐聚加速AI商业化落地
2025年中国腕戴设备市场同比增长20.8%,华为小米领跑中高端布局
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号