AI 基建迎转折 | CPU用量渐增,背后两大核心需求藏不住了

英特尔中国 2026-04-10 17:44
AI 基建迎转折 | CPU用量渐增,背后两大核心需求藏不住了图1


AI的发展让CPU在AI基建中的用量权重开始提升,或者说CPU:GPU的比值,正不断走高。有研究表明,在Agentic AI工作负载中,CPU工具处理延迟占比可高达90.6%,动态能耗占比高至44%,成为决定系统性能、效率以及体验的关键[1]


英特尔最新白皮书也揭示了这一变化:AI‌推理工作负载的爆发式增长‌与‌复杂AI系统的加速落地‌,让‌CPU的需求‌显著推高。英特尔® 至强® 6处理器作为高性能CPU的代表,开始高调显示CPU角色的重新定位为用户带来的独特价值。


AI 基建迎转折 | CPU用量渐增,背后两大核心需求藏不住了图2


AI 基建迎转折 | CPU用量渐增,背后两大核心需求藏不住了图3

推理反超训练,CPU成为AI计算的中坚


AI 行业的算力投入,正在经历从 “重训练” 到 “重推理” 的转变,推理的数据编排与管理对CPU有强依赖,这是助其迈向AI计算中坚的首要原因。


在推理流程中,CPU扮演 “空中交通管制员” 的角色,系统对其的依赖普遍超过60%,甚至会达100%。行业实测数据也表明,高端GPU要搭配高性能CPU,推理吞吐量才有更可观的提升。


更重要的是,Agentic AI的普及让企业从 “问答式 AI” 转向 “任务式智能体”,需要消耗大量的CPU侧逻辑处理能力;智能体的 “规划-工具使用-反思-优化”的循环,也需要借助CPU从系统层面优化算力结构。两者叠加,进一步放大了对CPU的需求。


对于云厂商的‌多租户GPU集群‌而言,GPU的部署密度越高,对CPU的 ‌“伴生需求”‌ 就越强,‌CPU的配备数量必须随GPU用量线性增长‌。否则,GPU将因等待任务调配而出现闲置或空转,导致昂贵的硬件投资效率低下。


如果说推理增长是 CPU 需求上涨的 “基本盘”,那么强化学习(RL)的产业化落地,就是推动CPU:GPU比值进一步走高的 “增量引擎”。自动驾驶、机器人、精密医疗、算法交易等领域的发展演进,推动着RL进入产业化应用阶段。而这一过程需要海量CPU算力来支撑。此外RL环境复杂度的不断攀升也让CPU的需求持续攀升,原因在于CPU的核心数和内存子系统的能力,特别是容量直接决定并行上限,主导整体吞吐。


AI 基建迎转折 | CPU用量渐增,背后两大核心需求藏不住了图4

不是 GPU 失宠了,而是 CPU 价值在AI实战中走向回归


CPU:GPU 比值走高,并非意味着GPU的核心地位被替代,CPU与GPU之间的关系也不是零和博弈,而是CPU的价值,随着AI从研到用、从“单维算力竞争” 走向“系统工程优化”,同步出现了必然也自然的回归。


GPU依然会是AI计算中密集浮点运算的核心,但新一代GPU架构对CPU-GPU的协同要求更高,糟糕的CPU-GPU协调会直接导致整个AI工作流的时延飙升;而AI数据中心的千兆瓦级功耗压力,也让 “借助CPU 优化 GPU 利用率” 成为刚需。提升CPU的用量或提升CPU性能水平能更让CPU主导的任务更快交接给GPU,减少GPU闲置;把CPU也能顺畅运行的铺助任务卸载给CPU,也能让GPU支持更多需要密集型算力的高价值任务,这两者都能大幅提升单位token的能效,缓解数据中心的能源与冷却压力。


如今的 AI 系统,早已不是GPU 单独发力的时代。超大规模GPU集群的互连协调、分布式调度,需要CPU完成;Agentic AI的多阶段流水线、复杂编排也需要CPU支撑;RL的工业化仿真、并行推演还是需要CPU主导。它越来越像AI实战中一个个参赛队,即一个个完整AI系统的“中锋”,是连接数据、GPU、应用场景的核心枢纽,也是决定整个系统的端到端性能、资源利用率和成本效率的“控场”者。


对于企业和云厂商而言,未来的AI基建规划,必须将CPU作为优化成本、性能、能效的重要考量因素—— 不再是简单的配多少 GPU,而是如何通过 CPU与GPU的联动与优化,让GPU的价值最大化


AI 基建迎转折 | CPU用量渐增,背后两大核心需求藏不住了图5

针对企业与云厂商,不同场景的实操清单


看懂“CPU:GPU比值走高”的逻辑之后,真正能拉开差距的往往不是再多买几块GPU,而是把推理与Agent/RL的“全链路瓶颈”拆开看:控制平面、数据平面、资源平面分别怎么配、怎么管、怎么测。


对企业(自建/混合云):

别只盯着GPU,把“端到端吞吐”做出来


● 先做一次“推理全链路画像”,再谈配比:把一次请求拆成接入→鉴权/限流→路由→RAG检索/重排→token流式输出→日志/审计→回写。分别看p50/p95延迟、CPU占用、内存带宽、磁盘/网络IO,找出真正的瓶颈点(很多时候不是GPU算不过来,而是CPU/内存/IO把GPU“饿”住)。


● CPU选型别只看核数优先关注单核性能、内存通道/带宽、NUMA拓扑、PCIe代际与通道数;推理服务通常是“多线程+高并发+小算子”,更怕抖动与跨NUMA。


● 把RAG/Agent当成“CPU与IO工程”来做向量检索、重排、工具调用、结构化输出、沙箱执行、工作流编排,本质是CPU+内存+网络的组合题。建议把检索服务、重排服务、模型推理服务拆成可独立扩缩的组件,避免“一个大服务拖死整条链路”。


用“GPU利用率”做KPI容易误判,换成三类指标①端到端token/s与p95延迟;②每千token成本(含CPU/内存/网络/存储摊销);③每千token能耗(方便做机房功耗与冷却预算)。


● 推理集群要预留“控制平面冗余”:在高并发与多租户场景下,队列、调度、限流、灰度、熔断会显著放大CPU开销;宁可多给一点CPU与内存,也不要让高价GPU因为调度抖动而空转。


● 如果你在做RL/RLHF:把Actor(环境步进/仿真/采样)视为“CPU集群”,把Learner视为“GPU集群”。两边的产消速率要对齐:CPU供给不足会直接导致GPU等待样本;反过来GPU不足则会堆积轨迹与缓存,拖垮内存与网络。


对云厂商:

CPU才是多租户效率的“隐形定价权”


● 产品形态从“卖GPU”升级到“卖吞吐/延迟SLO”:把实例规格从单一GPU型号,升级为GPU+CPU+内存+网络的成套能力包,并给出清晰SLO(例如并发、p95延迟、稳定token/s)。谁能把端到端体验标准化,谁就能获得更高溢价。


● 把调度与隔离当成“第一性能力”:多租户下的队列、配额、抢占、亲和性、MIG/切分、冷启动、热升级都吃CPU。建议在架构上分离:管理/控制平面(CPU重)与数据/推理平面(GPU重),并对控制平面做容量冗余与故障域隔离。


● 做“反脆弱”的压测与计费:压测不要只跑模型算子基准,要跑真实业务链路(RAG、重排、长上下文、流式输出、函数调用)。计费上也别只按GPU时长,给客户可解释的“每千token成本”与“峰值并发能力”,减少因链路瓶颈导致的体验争议。


● 网络与内存带宽是CPU价值放大的杠杆:高密度GPU节点,CPU一旦跨NUMA或被内存带宽卡住,会直接导致GPU利用率下降。对外可以把“拓扑友好”做成卖点:同机房同机架亲和、RDMA/高速互连、稳定的网络抖动控制。


● 提供可组合的推理编排能力:把batching、路由、缓存、KV管理、日志审计、灰度发布做成托管能力(而不是让客户自己拼)。因为这些“看起来不性感”的CPU侧能力,决定了客户最终能不能把GPU打满。


AI工作负载正加速分化,CPU不仅要负责调度编排,更要深度参与推理,并稳定支撑大规模并发与企业级应用。拥抱这一趋势,英特尔至强6处理器凭借AMX加速能力,实现了从“辅助者”到“算力引擎”的跨越,让CPU成为真正的‌AI生产力核心‌。同时,通过xCCL和CPU Offload策略,不仅能充分释放GPU潜力,还可大幅减轻GPU显存压力,促进CPU与GPU的 ‌“协作共生”‌ ,重塑智能计算架构,并加速AI基础设施进化与计算范式创新。


点击阅读原文,了解白皮书更多信息。


[1] A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI,arXiv:2511.00739v2 [cs.AI] 29 Nov 2025


©英特尔公司,英特尔、英特尔logo及其它英特尔标识,是英特尔公司或其分支机构的商标。文中涉及的其它名称及品牌属于各自所有者资产。



/转载请注明出处/

AI 基建迎转折 | CPU用量渐增,背后两大核心需求藏不住了图6

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
联发科Q1营收微降,3月强势反弹 AI ASIC成新增长引擎
阿里把AI交给这4人,接下来一切都听token的
AI 营销,到底改变了什么
大厂“牛马”,被迫用AI
微信重申禁令:AI代写公众号年入200万模式涉嫌违规
华为AI眼镜实拍首曝,何刚预告新品即将亮相
普利策得主万字起底奥特曼,Anthropic CEO:OpenAI问题就在他身上
时薪 6 毛钱,Anthropic 开始出租 AI 牛马
韩国初创企业Galaxy以AI与机器人重构K-pop生态,拟2027年双地上市
AI算力核心赛道:液冷服务器核心路线全解析
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号