AI 基建迎转折 | CPU用量渐增，背后两大核心需求藏不住了

AI的发展让CPU在AI基建中的用量权重开始提升，或者说CPU:GPU的比值，正不断走高。有研究表明，在Agentic AI工作负载中，CPU工具处理延迟占比可高达90.6%，动态能耗占比高至44%，成为决定系统性能、效率以及体验的关键^[1]。

英特尔最新白皮书也揭示了这一变化：AI‌推理工作负载的爆发式增长‌与‌复杂AI系统的加速落地‌，让‌CPU的需求‌显著推高。英特尔^® 至强^® 6处理器作为高性能CPU的代表，开始高调显示CPU角色的重新定位为用户带来的独特价值。

推理反超训练，CPU成为AI计算的中坚

AI 行业的算力投入，正在经历从 “重训练” 到 “重推理” 的转变，推理的数据编排与管理对CPU有强依赖，这是助其迈向AI计算中坚的首要原因。

在推理流程中，CPU扮演 “空中交通管制员” 的角色，系统对其的依赖普遍超过60%，甚至会达100%。行业实测数据也表明，高端GPU要搭配高性能CPU，推理吞吐量才有更可观的提升。

更重要的是，Agentic AI的普及让企业从 “问答式 AI” 转向 “任务式智能体”，需要消耗大量的CPU侧逻辑处理能力；智能体的 “规划-工具使用-反思-优化”的循环，也需要借助CPU从系统层面优化算力结构。两者叠加，进一步放大了对CPU的需求。

对于云厂商的‌多租户GPU集群‌而言，GPU的部署密度越高，对CPU的 ‌“伴生需求”‌ 就越强，‌CPU的配备数量必须随GPU用量线性增长‌。否则，GPU将因等待任务调配而出现闲置或空转，导致昂贵的硬件投资效率低下。

如果说推理增长是 CPU 需求上涨的 “基本盘”，那么强化学习（RL）的产业化落地，就是推动CPU:GPU比值进一步走高的 “增量引擎”。自动驾驶、机器人、精密医疗、算法交易等领域的发展演进，推动着RL进入产业化应用阶段。而这一过程需要海量CPU算力来支撑。此外RL环境复杂度的不断攀升也让CPU的需求持续攀升，原因在于CPU的核心数和内存子系统的能力，特别是容量直接决定并行上限，主导整体吞吐。

不是 GPU 失宠了，而是 CPU 价值在AI实战中走向回归

CPU:GPU 比值走高，并非意味着GPU的核心地位被替代，CPU与GPU之间的关系也不是零和博弈，而是CPU的价值，随着AI从研到用、从“单维算力竞争” 走向“系统工程优化”，同步出现了必然也自然的回归。

GPU依然会是AI计算中密集浮点运算的核心，但新一代GPU架构对CPU-GPU的协同要求更高，糟糕的CPU-GPU协调会直接导致整个AI工作流的时延飙升；而AI数据中心的千兆瓦级功耗压力，也让 “借助CPU 优化 GPU 利用率” 成为刚需。提升CPU的用量或提升CPU性能水平能更让CPU主导的任务更快交接给GPU，减少GPU闲置；把CPU也能顺畅运行的铺助任务卸载给CPU，也能让GPU支持更多需要密集型算力的高价值任务，这两者都能大幅提升单位token的能效，缓解数据中心的能源与冷却压力。

如今的 AI 系统，早已不是GPU 单独发力的时代。超大规模GPU集群的互连协调、分布式调度，需要CPU完成；Agentic AI的多阶段流水线、复杂编排也需要CPU支撑；RL的工业化仿真、并行推演还是需要CPU主导。它越来越像AI实战中一个个参赛队，即一个个完整AI系统的“中锋”，是连接数据、GPU、应用场景的核心枢纽，也是决定整个系统的端到端性能、资源利用率和成本效率的“控场”者。

对于企业和云厂商而言，未来的AI基建规划，必须将CPU作为优化成本、性能、能效的重要考量因素—— 不再是简单的配多少 GPU，而是如何通过 CPU与GPU的联动与优化，让GPU的价值最大化。

针对企业与云厂商，不同场景的实操清单

看懂“CPU:GPU比值走高”的逻辑之后，真正能拉开差距的往往不是再多买几块GPU，而是把推理与Agent/RL的“全链路瓶颈”拆开看：控制平面、数据平面、资源平面分别怎么配、怎么管、怎么测。

对企业（自建/混合云）：

别只盯着GPU，把“端到端吞吐”做出来

● 先做一次“推理全链路画像”，再谈配比：把一次请求拆成接入→鉴权/限流→路由→RAG检索/重排→token流式输出→日志/审计→回写。分别看p50/p95延迟、CPU占用、内存带宽、磁盘/网络IO，找出真正的瓶颈点（很多时候不是GPU算不过来，而是CPU/内存/IO把GPU“饿”住）。

● CPU选型别只看核数：优先关注单核性能、内存通道/带宽、NUMA拓扑、PCIe代际与通道数；推理服务通常是“多线程+高并发+小算子”，更怕抖动与跨NUMA。

● 把RAG/Agent当成“CPU与IO工程”来做：向量检索、重排、工具调用、结构化输出、沙箱执行、工作流编排，本质是CPU+内存+网络的组合题。建议把检索服务、重排服务、模型推理服务拆成可独立扩缩的组件，避免“一个大服务拖死整条链路”。

用“GPU利用率”做KPI容易误判，换成三类指标：①端到端token/s与p95延迟；②每千token成本（含CPU/内存/网络/存储摊销）；③每千token能耗（方便做机房功耗与冷却预算）。

● 推理集群要预留“控制平面冗余”：在高并发与多租户场景下，队列、调度、限流、灰度、熔断会显著放大CPU开销；宁可多给一点CPU与内存，也不要让高价GPU因为调度抖动而空转。

● 如果你在做RL/RLHF：把Actor（环境步进/仿真/采样）视为“CPU集群”，把Learner视为“GPU集群”。两边的产消速率要对齐：CPU供给不足会直接导致GPU等待样本；反过来GPU不足则会堆积轨迹与缓存，拖垮内存与网络。

对云厂商：

CPU才是多租户效率的“隐形定价权”

● 产品形态从“卖GPU”升级到“卖吞吐/延迟SLO”：把实例规格从单一GPU型号，升级为GPU+CPU+内存+网络的成套能力包，并给出清晰SLO（例如并发、p95延迟、稳定token/s）。谁能把端到端体验标准化，谁就能获得更高溢价。

● 把调度与隔离当成“第一性能力”：多租户下的队列、配额、抢占、亲和性、MIG/切分、冷启动、热升级都吃CPU。建议在架构上分离：管理/控制平面（CPU重）与数据/推理平面（GPU重），并对控制平面做容量冗余与故障域隔离。

● 做“反脆弱”的压测与计费：压测不要只跑模型算子基准，要跑真实业务链路（RAG、重排、长上下文、流式输出、函数调用）。计费上也别只按GPU时长，给客户可解释的“每千token成本”与“峰值并发能力”，减少因链路瓶颈导致的体验争议。

● 网络与内存带宽是CPU价值放大的杠杆：高密度GPU节点，CPU一旦跨NUMA或被内存带宽卡住，会直接导致GPU利用率下降。对外可以把“拓扑友好”做成卖点：同机房同机架亲和、RDMA/高速互连、稳定的网络抖动控制。

● 提供可组合的推理编排能力：把batching、路由、缓存、KV管理、日志审计、灰度发布做成托管能力（而不是让客户自己拼）。因为这些“看起来不性感”的CPU侧能力，决定了客户最终能不能把GPU打满。

AI工作负载正加速分化，CPU不仅要负责调度编排，更要深度参与推理，并稳定支撑大规模并发与企业级应用。拥抱这一趋势，英特尔至强6处理器凭借AMX加速能力，实现了从“辅助者”到“算力引擎”的跨越，让CPU成为真正的‌AI生产力核心‌。同时，通过xCCL和CPU Offload策略，不仅能充分释放GPU潜力，还可大幅减轻GPU显存压力，促进CPU与GPU的 ‌“协作共生”‌ ，重塑智能计算架构，并加速AI基础设施进化与计算范式创新。

点击阅读原文，了解白皮书更多信息。

[1] A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI，arXiv:2511.00739v2 [cs.AI] 29 Nov 2025

/转载请注明出处/