聊聊大模型推理系统之Q-Infer技术突破:GPU-CPU协同推理提速3倍背后的三大创新

机智流 2025-09-12 22:00

资讯配图

全文约 2000 字,预计阅读时间 7 分钟

你是否知道,当前大模型推理系统在面对高并发请求时,常常陷入“低延迟”与“高吞吐”不可兼得的两难境地?一边是聊天机器人需要秒级响应,另一边是批量数据处理追求整体效率——如何破局?

一项名为 Q-Infer 的新系统给出了答案。该研究通过稀疏性感知的动态调度策略,首次实现了在不牺牲模型精度的前提下,将大语言模型(LLM)的推理性能大幅提升。实验表明,在 LLaMA-70B 等主流模型上,其吞吐量相较现有方案最高提升超过 3 倍,同时保持了 98%以上的任务准确率。

这背后,究竟隐藏着哪些关键技术突破?它又将如何重塑未来的大模型部署格局?

资讯配图

论文链接:https://dl.acm.org/doi/10.1145/3764589


核心看点

近年来,大语言模型(Large Language Models, LLMs)在自然语言理解、代码生成等领域展现出惊人能力,但其庞大的计算需求也带来了高昂的推理成本。为此,学界和工业界纷纷探索异构计算方案,试图利用CPU作为GPU的补充,以降低对昂贵显存的依赖。

然而,现有系统存在明显短板:面向延迟敏感型应用(如对话系统)的方案(如 PowerInfer),虽优化单次响应速度,却在大批次场景下因激活稀疏性下降而性能骤降;而面向吞吐优先型任务(如数据清洗)的系统(如 FlexGen),则往往因频繁的 CPU-GPU 数据搬运导致单请求延迟过高。

针对这一核心矛盾,华中科技大学联合华为团队提出 Q-Infer ——一种高效的 GPU-CPU 协同推理系统。其核心亮点在于:通过深入分析神经元激活稀疏性KV 缓存的关键 token 分布以及硬件算力特性,设计了一套动态缓存管理自适应计算调度机制。该系统不仅能智能识别并保留对输出影响最大的关键 token,还能根据实时负载动态调整计算任务在 GPU 和 CPU 之间的分配,从而在保证精度的同时,显著提升了整体推理效率。


研究背景

传统 LLM 推理主要依赖 GPU 完成,但随着模型规模(如 LLaMA-70B、Falcon-40B)的急剧膨胀,仅靠 GPU 难以满足低成本、高并发的需求。因此,将部分计算或存储卸载到 CPU 成为重要方向。这类 CPU 卸载(CPU Offloading)技术旨在利用 CPU 更大的内存容量来扩展 KV 缓存,缓解 GPU 显存压力。

然而,当前的 CPU 卸载方案面临两大挑战:

  1. 性能与延迟难以平衡:如前文所述,现有系统要么牺牲吞吐换延迟,要么牺牲延迟换吞吐,缺乏灵活性。
  2. 模型精度易受损:许多方法通过剪枝或量化来压缩 KV 缓存,但简单地丢弃“不重要”的 token 会导致信息丢失,影响生成质量。

Q-Infer 团队敏锐地发现,问题的根源在于对模型内部稀疏性特征硬件异构性的利用不足。他们提出,真正的高效协同不应是静态划分任务,而应是一个基于运行时反馈的动态决策过程

资讯配图

核心贡献

方法创新:从静态卸载到动态协同

资讯配图

Q-Infer 的核心是一套包含稀疏感知缓存管理动态计算调度的闭环系统。

首先,在缓存层面,Q-Infer 提出了改进的 Key-Value (KV) 缓存选择算法。不同于 H2O 等仅保留 top-k 最相关 token 的方法,Q-Infer 结合了关键 token 窗口近期 token 窗口,既捕捉长期依赖,又保留最新上下文,有效维持了生成准确性。实验显示,在 Falcon-40B 模型上,即使 KV 缓存缩减 50%,其在 WikiQA、ChatGPT-Eval 等基准上的准确率仍稳定在 0.85 以上(相比 Full Cache 下降不足 2%)。

资讯配图

其次,在调度层面,Q-Infer 设计了一个运行时调优子系统。该系统通过一个轻量级的代价模型梯度下降更新算法,持续监控 GPU 与 CPU 的执行时间、PCIe 传输开销等系统指标,并据此动态调整每一层网络的计算放置策略(即决定某层 MLP 或 Attention 计算在 GPU 还是 CPU 执行)。这种细粒度的动态调度,使得系统能自适应不同批次大小和序列长度的变化。

placement_solver(γ, β) → {GPU, CPU}
(其中 γ 代表权重,β 代表 KV 缓存,求解器输出最优执行位置)

最终的端到端测试表明,在 A100 + CPU 的硬件配置下,Q-Infer 相较于 llama.cpp、FlexGen 等基线系统,平均吞吐量提升达 2.1 倍,在某些配置下甚至达到 3.4 倍(提升 240%),同时将大批次下的平均延迟降低了 60% 以上

实证成果:全面超越现有方案

资讯配图

研究团队在 LLaMA-70B、OPT-30B、Falcon-40B 等多个主流大模型上进行了广泛测试。图 12(论文中)清晰展示了 Q-Infer 在不同序列长度和批次大小下的吞吐优势。例如,当输入长度为 128、批次大小为 64 时,Q-Infer 的吞吐量接近 474 tokens/s,而 PowerInfer 不足 150 tokens/s。

更重要的是,Q-Infer 在追求高性能的同时,成功守住了精度底线。如论文图 1(c)所示,其生成结果的准确率与全量缓存(Full Cache)方案高度一致,远优于 H2O 等纯稀疏化方法。


行业意义

Q-Infer 的出现,为 异构计算驱动的大模型推理提供了一条切实可行的路径。它不仅验证了稀疏性局部性原理在实际系统中的巨大潜力,更推动了从“粗粒度卸载”向“细粒度动态协同”的技术路线演进。

这一成果与国家倡导的“绿色计算”和“算力普惠”政策高度契合。通过最大化利用现有的 GPU 和 CPU 资源,Q-Infer 有助于降低大模型服务的能耗与成本,使更多中小企业能够负担起高质量的 AI 推理服务。

未来,随着多芯片协同(如 GPU+CPU+NPU)架构的普及,Q-Infer 所提出的动态调度框架有望被扩展至更复杂的硬件环境,进而引发 AI 推理基础设施的深刻变革。无论是云端大规模部署,还是边缘端混合计算,这套智能化的资源调度思想都将发挥关键作用。


这项研究已发表于 ACM Transactions on Architecture and Code Optimization,完整论文详见:Q-Infer[1]

推动大模型高效落地,变革AI 算力使用方式——Q-Infer 正在让这一切成为可能。

参考资料
[1] 

Q-Infer: https://dl.acm.org/doi/10.1145/3764589


-- 完 --


机智流推荐阅读

1. LangChain 新一代记忆管理:RunnableWithMessageHistory 全面解析与实战

2. IJRR2025|万字长文解读视觉RL在多目标操作中的痛点与ASIMO的突破

3. 128K上下文+100轮工具调用!港科大联合MiniMax推出WebExplorer-8B,登顶6大信息检索基准

4. OpenAI最新研究揭秘大模型为什么会有幻觉!


关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有
HuggingFace每日精选论文顶会论文解读Talk分享通俗易懂的Agent知识与项目前沿AI科技资讯大模型实战教学活动等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
  • cc | 大模型技术交流群
  • hf | HuggingFace 高赞论文分享群
  • 具身 | 具身智能交流群
  • 硬件 | AI 硬件交流群
  • 智能体 | Agent 技术交流群

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
GPU
more
国产5nm GPU流片成功,公司曾一度发不出工资
94%!NVIDIA创下GPU市场新纪录
湿度是关键:国际研究人员、深度学习和 NVIDIA GPU 如何改变天气预报
绝境重生!象帝先 GPU 流片成功!
历史性突破!中国GPU迎来“亮剑时刻”
英伟达推出面向大模型语境理解AI的Rubin CPX GPU,2026年底上市
用国产GPU训练的国产大模型来了!能耗暴降97.7%
云大厂半年复盘:GPU业绩暴增、国内云攻守各异、外资云持续调整
学术前沿丨摆脱GPU依赖!Nature发布「物理神经网络」综述:实现大规模、高效AI训练与推理
“伏羲”GPU流片成功!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号