芝能智芯出品Arm 在架构和IP的商业模式里面,开拓出一条道路,站在产业链设计的最前端上,赚生态的钱。
这种模式被认为是半导体行业最优雅的商业设计,不需要考虑产能周期和终端市场波动,只需要醉心于最前沿的设计,还能不断扩大规模能吃到几乎所有出货量的分成。
2026年3月,Arm发布Arm AGI CPU,Arm多了一个“芯片厂商”的身份,走进了原本只属于客户的领域。
Arm开始下场,成为“最直接的参与者”,这是为什么呢?
Part 1
过去十年,数据中心的核心矛盾是“算力从哪里来”,因此GPU成为主角,CPU逐渐退居二线,更多承担通用计算和调度角色。
但随着AI进入推理阶段,尤其是所谓“代理式AI”(Agentic AI)开始兴起,整个系统的运行方式发生了变化:从单一模型的大规模训练,开始围绕成千上万个智能体在持续运行、协同决策、实时交互。
这种模式对计算提出了一个新的要求:持续、高密度、可调度的算力供给。
在这种体系里,CPU的角色被重新放大,负责整个系统的节奏控制:调度任务、管理内存、协调加速器、处理网络数据流。
在某种意义上,GPU决定“算多少”,而CPU决定“算得顺不顺”。当AI系统规模扩大到以“机架”为单位、以“吉瓦”为能耗约束时,这种差异会被指数级放大。
Arm AGI CPU的定位,正是卡在这个新的结构性位置上。136个核心、每核心6GB/s带宽、低于100ns的延迟,以及在机架级别实现对x86两倍性能的目标,追求系统级效率最大化。
Part 2
Arm AGI CPU的主要考虑包括高并发核心数、确定性性能、极高内存带宽,以及围绕机架级部署的功耗与密度优化。
● 核心架构
AGI CPU基于Arm Neoverse V3核心构建,单芯片最高可集成136个核心,并采用“每线程独占核心”的设计策略。这一点与传统x86体系中常见的超线程(SMT)形成明显对比。
SMT通过共享执行单元提升利用率,但在高负载、资源竞争激烈的AI推理场景中,容易引入不可预测的延迟抖动。
Arm选择放弃SMT是用面积换确定性,让每个线程在持续负载下都能获得稳定的执行资源,从而满足大规模分布式系统对QoS(服务质量)的要求。
● 内存子系统
AGI CPU提供每核心约6GB/s的内存带宽,在高核心数架构中非常关键。
AI推理场景中,大量操作并非纯计算密集,而是内存访问与数据搬运密集,尤其是在多模型、多智能体并发运行时,数据在CPU、GPU/NPU以及存储之间频繁流动。如果内存带宽不足,会直接导致核心“空转”。
Arm在设计中通过提升带宽密度和降低访问延迟(低于100ns),使得CPU能够持续为加速器提供数据,从系统角度提升整体利用率。
● 功耗与热设计
AGI CPU单芯片TDP约300W,这一水平在高端服务器CPU中并不算极端,但其关键在于“功耗密度与部署方式”的匹配。
Arm针对1U服务器进行了优化设计,在风冷条件下,一个标准机架可以部署数千核心,而在液冷方案下,单机架核心数可扩展至4万以上。
这种设计思路强调的不是单芯片性能,而是单位机架的算力密度(performance per rack)。在数据中心实际运营中,功耗上限通常以机架或机房为单位(如30kW、200kW),因此如何在固定功耗预算下最大化算力输出,成为核心指标。
● 系统级扩展能力
AGI CPU强调“机架级性能提升”,背后是AI基础设施部署方式的变化:从单机训练转向大规模分布式推理与服务。CPU需要承担的不仅是计算,还包括任务调度、网络协议处理、数据分发等控制平面功能。
Arm通过高核心数和高带宽设计,使CPU能够在一个节点内处理更多并发任务,减少跨节点通信,从而降低整体系统延迟。
从系统协同角度看,AGI CPU的另一个关键作用是提升加速器利用率。
在当前AI系统中,GPU或专用加速器(如NPU)通常是最昂贵的资源,但其利用率往往受限于数据供给和任务调度。CPU如果无法及时提供数据或分配任务,就会导致加速器空闲。
Arm通过提升CPU并发处理能力,使其能够同时管理更多加速器和任务流,从而提高整个系统的“有效算力”。
AGI CPU在I/O和网络侧的设计也围绕这一目标展开。虽然具体接口细节未完全披露,但从应用场景可以推断,其重点在于支持高速互连(如PCIe、CXL)以及大规模节点间通信。
随着AI系统规模扩大,数据不再局限于单节点内部,跨节点的数据一致性和低延迟通信成为瓶颈。CPU作为控制节点,需要具备更强的网络处理能力,以支撑分布式调度。
Part 3
在原有模式下,Arm提供IP,客户负责做芯片,比如亚马逊云科技的Graviton、谷歌的Axion、微软的Cobalt,这些都是典型的“Arm inside,但不是Arm制造”。
这种模式的好处是生态繁荣,但问题也逐渐显现:每一家都在做定制化优化,但没有人对“系统级最优”负责。
换句话说,Arm提供的是“能力组件”,但缺乏一个“标准答案”。在AI时代,这种松散结构开始成为瓶颈。
因为AI基础设施不再是简单的服务器堆叠,而是一个高度耦合的系统工程,CPU、加速器、内存、网络必须协同设计。如果没有一个统一的参考架构,整个生态的效率会被严重拖慢。
这正是Arm下场做芯片的核心动机:用“标准产品”来重新收敛生态。
Arm AGI CPU更像是一种“参考实现”(reference implementation),给整个行业提供了一个模板:在代理式AI场景下,CPU应该长什么样、怎么和加速器协同、如何在功耗约束下做到最优密度。这种模板一旦被验证,就会反过来影响所有基于Arm架构的设计。
Arm强调与Meta联合开发,并获得OpenAI等一系列客户支持,同时通过ODM/OEM体系(联想、广达、Supermicro)快速推动落地。
这种做法本质上是在强调:Arm并不是要取代客户,而是提供一个“可以直接用”的解决方案,降低部署门槛。
在传统移动设备时代,Arm的商业模式几乎完美:出货量巨大、标准化程度高、客户分散。
但在AI数据中心,这一切都发生了变化。市场集中在少数超大规模客户手中,产品高度定制化,价值更多集中在系统层而非单一IP。在这种环境下,如果仍然只做IP提供者,Arm的议价能力和价值捕获能力都会被削弱。
AI正在把计算产业从“规模驱动”,拉回到“系统能力驱动”,而Arm必须向上走,才能继续占据核心位置。
Arm现在试图构建的是一个三层模型:底层是IP授权,中间是CSS(计算子系统),最上层是完整芯片产品。
客户可以根据自身能力选择不同层级参与。这种模式的好处在于保留了原有生态,又为高端客户提供了“即插即用”的解决方案,同时也让Arm自己有机会直接参与高价值环节。
最近Arm CPU的发布还是挺受人关注的,Arm拥有最广泛的生态和最成熟的架构,一旦完成向上整合,有可能成为AI时代新的“基础设施中枢”,我们可以期待一下。