全文约 2000 字,预计阅读时间 7 分钟
你是否知道,当前大模型推理系统在面对高并发请求时,常常陷入“低延迟”与“高吞吐”不可兼得的两难境地?一边是聊天机器人需要秒级响应,另一边是批量数据处理追求整体效率——如何破局?
一项名为 Q-Infer 的新系统给出了答案。该研究通过稀疏性感知的动态调度策略,首次实现了在不牺牲模型精度的前提下,将大语言模型(LLM)的推理性能大幅提升。实验表明,在 LLaMA-70B 等主流模型上,其吞吐量相较现有方案最高提升超过 3 倍,同时保持了 98%以上的任务准确率。
这背后,究竟隐藏着哪些关键技术突破?它又将如何重塑未来的大模型部署格局?

论文链接:https://dl.acm.org/doi/10.1145/3764589
核心看点
近年来,大语言模型(Large Language Models, LLMs)在自然语言理解、代码生成等领域展现出惊人能力,但其庞大的计算需求也带来了高昂的推理成本。为此,学界和工业界纷纷探索异构计算方案,试图利用CPU作为GPU的补充,以降低对昂贵显存的依赖。
然而,现有系统存在明显短板:面向延迟敏感型应用(如对话系统)的方案(如 PowerInfer),虽优化单次响应速度,却在大批次场景下因激活稀疏性下降而性能骤降;而面向吞吐优先型任务(如数据清洗)的系统(如 FlexGen),则往往因频繁的 CPU-GPU 数据搬运导致单请求延迟过高。
针对这一核心矛盾,华中科技大学联合华为团队提出 Q-Infer ——一种高效的 GPU-CPU 协同推理系统。其核心亮点在于:通过深入分析神经元激活稀疏性、KV 缓存的关键 token 分布以及硬件算力特性,设计了一套动态缓存管理与自适应计算调度机制。该系统不仅能智能识别并保留对输出影响最大的关键 token,还能根据实时负载动态调整计算任务在 GPU 和 CPU 之间的分配,从而在保证精度的同时,显著提升了整体推理效率。
研究背景
传统 LLM 推理主要依赖 GPU 完成,但随着模型规模(如 LLaMA-70B、Falcon-40B)的急剧膨胀,仅靠 GPU 难以满足低成本、高并发的需求。因此,将部分计算或存储卸载到 CPU 成为重要方向。这类 CPU 卸载(CPU Offloading)技术旨在利用 CPU 更大的内存容量来扩展 KV 缓存,缓解 GPU 显存压力。
然而,当前的 CPU 卸载方案面临两大挑战:
性能与延迟难以平衡:如前文所述,现有系统要么牺牲吞吐换延迟,要么牺牲延迟换吞吐,缺乏灵活性。 模型精度易受损:许多方法通过剪枝或量化来压缩 KV 缓存,但简单地丢弃“不重要”的 token 会导致信息丢失,影响生成质量。
Q-Infer 团队敏锐地发现,问题的根源在于对模型内部稀疏性特征和硬件异构性的利用不足。他们提出,真正的高效协同不应是静态划分任务,而应是一个基于运行时反馈的动态决策过程。

核心贡献
方法创新:从静态卸载到动态协同

Q-Infer 的核心是一套包含稀疏感知缓存管理和动态计算调度的闭环系统。
首先,在缓存层面,Q-Infer 提出了改进的 Key-Value (KV) 缓存选择算法。不同于 H2O 等仅保留 top-k 最相关 token 的方法,Q-Infer 结合了关键 token 窗口与近期 token 窗口,既捕捉长期依赖,又保留最新上下文,有效维持了生成准确性。实验显示,在 Falcon-40B 模型上,即使 KV 缓存缩减 50%,其在 WikiQA、ChatGPT-Eval 等基准上的准确率仍稳定在 0.85 以上(相比 Full Cache 下降不足 2%)。

其次,在调度层面,Q-Infer 设计了一个运行时调优子系统。该系统通过一个轻量级的代价模型和梯度下降更新算法,持续监控 GPU 与 CPU 的执行时间、PCIe 传输开销等系统指标,并据此动态调整每一层网络的计算放置策略(即决定某层 MLP 或 Attention 计算在 GPU 还是 CPU 执行)。这种细粒度的动态调度,使得系统能自适应不同批次大小和序列长度的变化。
placement_solver(γ, β) → {GPU, CPU}
(其中 γ 代表权重,β 代表 KV 缓存,求解器输出最优执行位置)
最终的端到端测试表明,在 A100 + CPU 的硬件配置下,Q-Infer 相较于 llama.cpp、FlexGen 等基线系统,平均吞吐量提升达 2.1 倍,在某些配置下甚至达到 3.4 倍(提升 240%),同时将大批次下的平均延迟降低了 60% 以上。
实证成果:全面超越现有方案

研究团队在 LLaMA-70B、OPT-30B、Falcon-40B 等多个主流大模型上进行了广泛测试。图 12(论文中)清晰展示了 Q-Infer 在不同序列长度和批次大小下的吞吐优势。例如,当输入长度为 128、批次大小为 64 时,Q-Infer 的吞吐量接近 474 tokens/s,而 PowerInfer 不足 150 tokens/s。
更重要的是,Q-Infer 在追求高性能的同时,成功守住了精度底线。如论文图 1(c)所示,其生成结果的准确率与全量缓存(Full Cache)方案高度一致,远优于 H2O 等纯稀疏化方法。
行业意义
Q-Infer 的出现,为 异构计算驱动的大模型推理提供了一条切实可行的路径。它不仅验证了稀疏性和局部性原理在实际系统中的巨大潜力,更推动了从“粗粒度卸载”向“细粒度动态协同”的技术路线演进。
这一成果与国家倡导的“绿色计算”和“算力普惠”政策高度契合。通过最大化利用现有的 GPU 和 CPU 资源,Q-Infer 有助于降低大模型服务的能耗与成本,使更多中小企业能够负担起高质量的 AI 推理服务。
未来,随着多芯片协同(如 GPU+CPU+NPU)架构的普及,Q-Infer 所提出的动态调度框架有望被扩展至更复杂的硬件环境,进而引发 AI 推理基础设施的深刻变革。无论是云端大规模部署,还是边缘端混合计算,这套智能化的资源调度思想都将发挥关键作用。
这项研究已发表于 ACM Transactions on Architecture and Code Optimization,完整论文详见:Q-Infer[1]
推动大模型高效落地,变革AI 算力使用方式——Q-Infer 正在让这一切成为可能。
Q-Infer: https://dl.acm.org/doi/10.1145/3764589
-- 完 --
机智流推荐阅读:
1. LangChain 新一代记忆管理:RunnableWithMessageHistory 全面解析与实战
2. IJRR2025|万字长文解读视觉RL在多目标操作中的痛点与ASIMO的突破
3. 128K上下文+100轮工具调用!港科大联合MiniMax推出WebExplorer-8B,登顶6大信息检索基准
关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有HuggingFace每日精选论文与顶会论文解读、Talk分享、通俗易懂的Agent知识与项目、前沿AI科技资讯、大模型实战教学活动等。
cc | 大模型技术交流群 hf | HuggingFace 高赞论文分享群 具身 | 具身智能交流群 硬件 | AI 硬件交流群 智能体 | Agent 技术交流群