Arm开始涉足芯片，会有惊喜吗？

芝能智芯出品

Arm 在架构和IP的商业模式里面，开拓出一条道路，站在产业链设计的最前端上，赚生态的钱。

这种模式被认为是半导体行业最优雅的商业设计，不需要考虑产能周期和终端市场波动，只需要醉心于最前沿的设计，还能不断扩大规模能吃到几乎所有出货量的分成。

2026年3月，Arm发布Arm AGI CPU，Arm多了一个“芯片厂商”的身份，走进了原本只属于客户的领域。

Arm开始下场，成为“最直接的参与者”，这是为什么呢？

Part 1

AI带来的变化

过去十年，数据中心的核心矛盾是“算力从哪里来”，因此GPU成为主角，CPU逐渐退居二线，更多承担通用计算和调度角色。

但随着AI进入推理阶段，尤其是所谓“代理式AI”（Agentic AI）开始兴起，整个系统的运行方式发生了变化：从单一模型的大规模训练，开始围绕成千上万个智能体在持续运行、协同决策、实时交互。

这种模式对计算提出了一个新的要求：持续、高密度、可调度的算力供给。

在这种体系里，CPU的角色被重新放大，负责整个系统的节奏控制：调度任务、管理内存、协调加速器、处理网络数据流。

在某种意义上，GPU决定“算多少”，而CPU决定“算得顺不顺”。当AI系统规模扩大到以“机架”为单位、以“吉瓦”为能耗约束时，这种差异会被指数级放大。

Arm AGI CPU的定位，正是卡在这个新的结构性位置上。136个核心、每核心6GB/s带宽、低于100ns的延迟，以及在机架级别实现对x86两倍性能的目标，追求系统级效率最大化。

Part 2

Arm AGI CPU

Arm AGI CPU的主要考虑包括高并发核心数、确定性性能、极高内存带宽，以及围绕机架级部署的功耗与密度优化。

● 核心架构

AGI CPU基于Arm Neoverse V3核心构建，单芯片最高可集成136个核心，并采用“每线程独占核心”的设计策略。这一点与传统x86体系中常见的超线程（SMT）形成明显对比。

SMT通过共享执行单元提升利用率，但在高负载、资源竞争激烈的AI推理场景中，容易引入不可预测的延迟抖动。

Arm选择放弃SMT是用面积换确定性，让每个线程在持续负载下都能获得稳定的执行资源，从而满足大规模分布式系统对QoS（服务质量）的要求。

● 内存子系统

AGI CPU提供每核心约6GB/s的内存带宽，在高核心数架构中非常关键。

AI推理场景中，大量操作并非纯计算密集，而是内存访问与数据搬运密集，尤其是在多模型、多智能体并发运行时，数据在CPU、GPU/NPU以及存储之间频繁流动。如果内存带宽不足，会直接导致核心“空转”。

Arm在设计中通过提升带宽密度和降低访问延迟（低于100ns），使得CPU能够持续为加速器提供数据，从系统角度提升整体利用率。

● 功耗与热设计

AGI CPU单芯片TDP约300W，这一水平在高端服务器CPU中并不算极端，但其关键在于“功耗密度与部署方式”的匹配。

Arm针对1U服务器进行了优化设计，在风冷条件下，一个标准机架可以部署数千核心，而在液冷方案下，单机架核心数可扩展至4万以上。

这种设计思路强调的不是单芯片性能，而是单位机架的算力密度（performance per rack）。在数据中心实际运营中，功耗上限通常以机架或机房为单位（如30kW、200kW），因此如何在固定功耗预算下最大化算力输出，成为核心指标。

● 系统级扩展能力

AGI CPU强调“机架级性能提升”，背后是AI基础设施部署方式的变化：从单机训练转向大规模分布式推理与服务。CPU需要承担的不仅是计算，还包括任务调度、网络协议处理、数据分发等控制平面功能。

Arm通过高核心数和高带宽设计，使CPU能够在一个节点内处理更多并发任务，减少跨节点通信，从而降低整体系统延迟。

从系统协同角度看，AGI CPU的另一个关键作用是提升加速器利用率。

在当前AI系统中，GPU或专用加速器（如NPU）通常是最昂贵的资源，但其利用率往往受限于数据供给和任务调度。CPU如果无法及时提供数据或分配任务，就会导致加速器空闲。

Arm通过提升CPU并发处理能力，使其能够同时管理更多加速器和任务流，从而提高整个系统的“有效算力”。

AGI CPU在I/O和网络侧的设计也围绕这一目标展开。虽然具体接口细节未完全披露，但从应用场景可以推断，其重点在于支持高速互连（如PCIe、CXL）以及大规模节点间通信。

随着AI系统规模扩大，数据不再局限于单节点内部，跨节点的数据一致性和低延迟通信成为瓶颈。CPU作为控制节点，需要具备更强的网络处理能力，以支撑分布式调度。

Part 3

Arm为什么必须亲自来做这件事？

在原有模式下，Arm提供IP，客户负责做芯片，比如亚马逊云科技的Graviton、谷歌的Axion、微软的Cobalt，这些都是典型的“Arm inside，但不是Arm制造”。

这种模式的好处是生态繁荣，但问题也逐渐显现：每一家都在做定制化优化，但没有人对“系统级最优”负责。

换句话说，Arm提供的是“能力组件”，但缺乏一个“标准答案”。在AI时代，这种松散结构开始成为瓶颈。

因为AI基础设施不再是简单的服务器堆叠，而是一个高度耦合的系统工程，CPU、加速器、内存、网络必须协同设计。如果没有一个统一的参考架构，整个生态的效率会被严重拖慢。

这正是Arm下场做芯片的核心动机：用“标准产品”来重新收敛生态。

Arm AGI CPU更像是一种“参考实现”（reference implementation），给整个行业提供了一个模板：在代理式AI场景下，CPU应该长什么样、怎么和加速器协同、如何在功耗约束下做到最优密度。这种模板一旦被验证，就会反过来影响所有基于Arm架构的设计。

Arm强调与Meta联合开发，并获得OpenAI等一系列客户支持，同时通过ODM/OEM体系（联想、广达、Supermicro）快速推动落地。

这种做法本质上是在强调：Arm并不是要取代客户，而是提供一个“可以直接用”的解决方案，降低部署门槛。

在传统移动设备时代，Arm的商业模式几乎完美：出货量巨大、标准化程度高、客户分散。

但在AI数据中心，这一切都发生了变化。市场集中在少数超大规模客户手中，产品高度定制化，价值更多集中在系统层而非单一IP。在这种环境下，如果仍然只做IP提供者，Arm的议价能力和价值捕获能力都会被削弱。

AI正在把计算产业从“规模驱动”，拉回到“系统能力驱动”，而Arm必须向上走，才能继续占据核心位置。

Arm现在试图构建的是一个三层模型：底层是IP授权，中间是CSS（计算子系统），最上层是完整芯片产品。

客户可以根据自身能力选择不同层级参与。这种模式的好处在于保留了原有生态，又为高端客户提供了“即插即用”的解决方案，同时也让Arm自己有机会直接参与高价值环节。

小结

最近Arm CPU的发布还是挺受人关注的，Arm拥有最广泛的生态和最成熟的架构，一旦完成向上整合，有可能成为AI时代新的“基础设施中枢”，我们可以期待一下。