聊聊大模型推理系统之Q-Infer技术突破：GPU-CPU协同推理提速3倍背后的三大创新

资讯配图

全文约 2000 字，预计阅读时间 7 分钟

你是否知道，当前大模型推理系统在面对高并发请求时，常常陷入“低延迟”与“高吞吐”不可兼得的两难境地？一边是聊天机器人需要秒级响应，另一边是批量数据处理追求整体效率——如何破局？

一项名为 Q-Infer 的新系统给出了答案。该研究通过稀疏性感知的动态调度策略，首次实现了在不牺牲模型精度的前提下，将大语言模型（LLM）的推理性能大幅提升。实验表明，在 LLaMA-70B 等主流模型上，其吞吐量相较现有方案最高提升超过 3 倍，同时保持了 98%以上的任务准确率。

这背后，究竟隐藏着哪些关键技术突破？它又将如何重塑未来的大模型部署格局？

论文链接：https://dl.acm.org/doi/10.1145/3764589

核心看点

近年来，大语言模型（Large Language Models, LLMs）在自然语言理解、代码生成等领域展现出惊人能力，但其庞大的计算需求也带来了高昂的推理成本。为此，学界和工业界纷纷探索异构计算方案，试图利用CPU作为GPU的补充，以降低对昂贵显存的依赖。

然而，现有系统存在明显短板：面向延迟敏感型应用（如对话系统）的方案（如 PowerInfer），虽优化单次响应速度，却在大批次场景下因激活稀疏性下降而性能骤降；而面向吞吐优先型任务（如数据清洗）的系统（如 FlexGen），则往往因频繁的 CPU-GPU 数据搬运导致单请求延迟过高。

针对这一核心矛盾，华中科技大学联合华为团队提出 Q-Infer ——一种高效的 GPU-CPU 协同推理系统。其核心亮点在于：通过深入分析神经元激活稀疏性、KV 缓存的关键 token 分布以及硬件算力特性，设计了一套动态缓存管理与自适应计算调度机制。该系统不仅能智能识别并保留对输出影响最大的关键 token，还能根据实时负载动态调整计算任务在 GPU 和 CPU 之间的分配，从而在保证精度的同时，显著提升了整体推理效率。

研究背景

传统 LLM 推理主要依赖 GPU 完成，但随着模型规模（如 LLaMA-70B、Falcon-40B）的急剧膨胀，仅靠 GPU 难以满足低成本、高并发的需求。因此，将部分计算或存储卸载到 CPU 成为重要方向。这类 CPU 卸载（CPU Offloading）技术旨在利用 CPU 更大的内存容量来扩展 KV 缓存，缓解 GPU 显存压力。

然而，当前的 CPU 卸载方案面临两大挑战：

性能与延迟难以平衡：如前文所述，现有系统要么牺牲吞吐换延迟，要么牺牲延迟换吞吐，缺乏灵活性。
模型精度易受损：许多方法通过剪枝或量化来压缩 KV 缓存，但简单地丢弃“不重要”的 token 会导致信息丢失，影响生成质量。

Q-Infer 团队敏锐地发现，问题的根源在于对模型内部稀疏性特征和硬件异构性的利用不足。他们提出，真正的高效协同不应是静态划分任务，而应是一个基于运行时反馈的动态决策过程。

核心贡献

方法创新：从静态卸载到动态协同

Q-Infer 的核心是一套包含稀疏感知缓存管理和动态计算调度的闭环系统。

首先，在缓存层面，Q-Infer 提出了改进的 Key-Value (KV) 缓存选择算法。不同于 H2O 等仅保留 top-k 最相关 token 的方法，Q-Infer 结合了关键 token 窗口与近期 token 窗口，既捕捉长期依赖，又保留最新上下文，有效维持了生成准确性。实验显示，在 Falcon-40B 模型上，即使 KV 缓存缩减 50%，其在 WikiQA、ChatGPT-Eval 等基准上的准确率仍稳定在 0.85 以上（相比 Full Cache 下降不足 2%）。

其次，在调度层面，Q-Infer 设计了一个运行时调优子系统。该系统通过一个轻量级的代价模型和梯度下降更新算法，持续监控 GPU 与 CPU 的执行时间、PCIe 传输开销等系统指标，并据此动态调整每一层网络的计算放置策略（即决定某层 MLP 或 Attention 计算在 GPU 还是 CPU 执行）。这种细粒度的动态调度，使得系统能自适应不同批次大小和序列长度的变化。

placement_solver(γ, β) → {GPU, CPU}
（其中 γ 代表权重，β 代表 KV 缓存，求解器输出最优执行位置）

最终的端到端测试表明，在 A100 + CPU 的硬件配置下，Q-Infer 相较于 llama.cpp、FlexGen 等基线系统，平均吞吐量提升达 2.1 倍，在某些配置下甚至达到 3.4 倍（提升 240%），同时将大批次下的平均延迟降低了 60% 以上。

实证成果：全面超越现有方案

研究团队在 LLaMA-70B、OPT-30B、Falcon-40B 等多个主流大模型上进行了广泛测试。图 12（论文中）清晰展示了 Q-Infer 在不同序列长度和批次大小下的吞吐优势。例如，当输入长度为 128、批次大小为 64 时，Q-Infer 的吞吐量接近 474 tokens/s，而 PowerInfer 不足 150 tokens/s。

更重要的是，Q-Infer 在追求高性能的同时，成功守住了精度底线。如论文图 1(c)所示，其生成结果的准确率与全量缓存（Full Cache）方案高度一致，远优于 H2O 等纯稀疏化方法。

行业意义

Q-Infer 的出现，为 异构计算驱动的大模型推理提供了一条切实可行的路径。它不仅验证了稀疏性和局部性原理在实际系统中的巨大潜力，更推动了从“粗粒度卸载”向“细粒度动态协同”的技术路线演进。

这一成果与国家倡导的“绿色计算”和“算力普惠”政策高度契合。通过最大化利用现有的 GPU 和 CPU 资源，Q-Infer 有助于降低大模型服务的能耗与成本，使更多中小企业能够负担起高质量的 AI 推理服务。

未来，随着多芯片协同（如 GPU+CPU+NPU）架构的普及，Q-Infer 所提出的动态调度框架有望被扩展至更复杂的硬件环境，进而引发 AI 推理基础设施的深刻变革。无论是云端大规模部署，还是边缘端混合计算，这套智能化的资源调度思想都将发挥关键作用。

这项研究已发表于 ACM Transactions on Architecture and Code Optimization，完整论文详见：Q-Infer^[1]

推动大模型高效落地，变革AI 算力使用方式——Q-Infer 正在让这一切成为可能。

参考资料

[1]

Q-Infer: https://dl.acm.org/doi/10.1145/3764589

-- 完 --

2. IJRR2025｜万字长文解读视觉RL在多目标操作中的痛点与ASIMO的突破‍‍

3. 128K上下文+100轮工具调用！港科大联合MiniMax推出WebExplorer-8B，登顶6大信息检索基准

4. OpenAI最新研究揭秘大模型为什么会有幻觉！

关注机智流并加入 AI 技术交流群，不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流，同时还有HuggingFace每日精选论文与顶会论文解读、Talk分享、通俗易懂的Agent知识与项目、前沿AI科技资讯、大模型实战教学活动等。

在「机智流」公众号后台回复下方标红内容即可加入对应群聊：

cc | 大模型技术交流群
hf | HuggingFace 高赞论文分享群
具身 | 具身智能交流群
硬件 | AI 硬件交流群
智能体 | Agent 技术交流群