最强Arm芯片，正式发布

基于 AWS Graviton5 的 Amazon EC2 M9g 和 M9gd 实例现已正式推出。

Graviton5 专为满足智能 AI 的需求而构建——实时推理、代码生成和多步骤任务编排——其中处理器必须处理大量并发环境并保持加速器运转。

自预览以来，Meta已承诺加入Graviton，签约部署数千万个核心用于其智能体人工智能项目。

目前已有超过 12 万家客户基于 Graviton 构建应用，M9g 和 M9gd 的正式发布将同样的架构优势——每芯片 192 个核心、5 倍更大的缓存、DDR5-8800（云端速度最快的 DDR5 内存）以及 PCIe Gen 6 支持——通过标准的 EC2 部署路径，惠及所有 AWS 客户。

M9g 实例的计算性能比上一代产品提升高达 25%，其中 Web 应用速度提升 35%，机器学习推理速度提升 35%，数据库速度提升 30%。全新的 M9gd 实例专为需要高速本地存储的工作负载而设计，提供高达 11.4 TB 的 NVMe SSD 存储空间，IOPS（每秒输入/输出操作数）比上一代产品提升 30%。这两种实例类型都基于第六代处理器构建。AWS Nitro 系统现在，它还包含 Nitro 隔离引擎——一个经过正式验证的安全组件，可在虚拟机之间提供数学上证明的隔离。

Graviton5 超越了摩尔定律

AWS Graviton 处理器历经数代不断改进，每一代都在计算性能、性价比、能效和内存容量方面实现了提升。今天，亚马逊宣布面向通用工作负载推出全新 M9g 和 M9gd 弹性计算云 (EC2) 实例。这些是首批采用 Graviton5（亚马逊最新一代 CPU）的亚马逊产品。

经过五代定制芯片和八年的持续投资，Graviton 为超过 350 种实例类型提供支持，适用于包括 Web 应用程序、微服务、分析、数据库、机器学习推理、电子设计自动化、游戏、视频编码和智能 AI 在内的工作负载。

Graviton5 的核心数量是 Graviton4 的两倍，从 96 个增加到 192 个，并且支持 DDR5-8800 内存和最新的 PCIe Gen6 互连技术。我们与领先的 DRAM 制造商紧密合作，以达到 DDR5-8800 的性能水平，AWS Graviton 实例可提供云端所有处理器实例中最快的内存速度。

亚马逊的 Graviton5 也采用了 3 纳米制程工艺，从而实现了更高的电路密度和更快的片上通信速度。Graviton5 不仅比 Graviton4 拥有更多的核心，而且每个核心的性能也提升了 25%。

我们已经讨论过一段时间，微型基准测试与大型、真实的工作负载有很大不同，我们为客户的实际工作负载进行设计——不是小的循环，而是像数据库这样的真实应用程序的所有代码和复杂性。

为了快速执行代码，现代处理器会预测程序控制流中的分支，并推测性地执行预测路径。Graviton5 中使用的 Neoverse V3 内核由 Arm 和亚马逊 Annapurna Labs 共同定义，它显著提升了 CPU 的分支预测能力，从而使其执行数据库等实际应用程序的性能提升高达 30%。

CPU 的 DRAM 内存访问延迟约为 100 纳秒。这听起来似乎不多，但对于运行频率为 3.3 GHz 的 CPU 来说，一次内存访问需要 330 个时钟周期。CPU 使用缓存来缩短数据访问时间，当请求可以从缓存中获取时，CPU 就无需等待完整的 DRAM 访问延迟。Graviton5 拥有 64 KB 的一级缓存、2 MB 的二级缓存和 192 MB 的三级缓存——是上一代 Graviton 的五倍以上。

Graviton3 是首款采用芯片组架构的 Graviton CPU，其核心、DRAM 控制器和 PCIe 控制器共使用了七个芯片。Graviton4 沿用了 Graviton3 的架构，并进行了一些改进。

然而，在 Graviton5 中，我们进行了大幅改进：Graviton5 的 192 个核心分布在四个芯片组（chiplet）中，每个芯片组包含 DRAM 控制器、PCIe 控制器和 48 个核心，并采用定制的芯片间互连技术，在芯片组之间提供高达 420 GB/s 的带宽，从而最大限度地降低网格中核心之间的延迟。不再有独立的 I/O 芯片或独立的 DRAM 控制器芯片。这种架构使我们能够为每个芯片配置两个或四个非均匀内存访问 (NUMA) 区域，并将 L3 缓存的大小划分为与 CPU 上运行的虚拟机 (VM) 的大小相匹配的分区，同时降低 48 核或更小虚拟机的内存延迟。

经过这些改进，Graviton5 的计算性能比基于 Graviton4 的实例提高了 25%，Web 应用程序的性能提高了 35%，机器学习推理的性能提高了 35%，数据库的性能提高了 30%。

由 Graviton5 提供支持的 M9g 和 M9gd 实例通过引入 Nitro 隔离引擎，进一步提升了安全性。Nitro 隔离引擎是对 Nitro 系统的增强，它强制执行实例隔离，并利用形式化验证以数学精度提供隔离保证。Nitro 隔离引擎是一个专用组件，负责强制执行虚拟机之间的隔离，包括通过一组最少的 API 来协调对虚拟机内存、CPU 寄存器状态和 I/O 设备的所有访问。Nitro 隔离引擎利用形式化验证，这是一种通过数学方法证明硬件或软件的行为符合预期（而不仅仅是在特定测试用例中）的技术。这种严格的验证使 Nitro 成为首个经过形式化验证的云管理程序，开创了数学证明云安全的新标准。

CPU、GPU 和加速器，各司其职

当你观看流媒体节目、查看电子邮件或向人工智能助手寻求帮助时，各种类型的计算机芯片都在幕后默默工作。其中最重要的包括中央处理器（CPU）和人工智能加速芯片，后者包括图形处理器（GPU）和类似AWS Trainium的芯片。

中央处理器 (CPU) 就像计算机的大脑，负责处理运行软件和操作系统所需的所有通用任务。人工智能加速芯片，例如 AWS Trainium 和图形处理器 (GPU)，擅长并行计算任务，包括训练和部署人工智能模型。与功能更全面的 GPU 不同，AWS Trainium 芯片从一开始就专为人工智能工作负载而设计。这种专用设计使其在训练和运行大型语言模型方面，性能和效率甚至优于通用 GPU。

CPU 与 GPU 和加速器有何不同？

你可以把CPU想象成一位技艺精湛的工匠，他可以一次完成一项任务，处理任何工作。GPU则更像是一条工厂流水线，可以同时处理成千上万个简单重复的任务。而AI加速器则是一条专为特定产品定制的工厂流水线，它可以更快、更经济地生产该产品。

CPU擅长顺序处理，因此非常适合运行操作系统、管理数据库以及执行维持应用程序运行的各种逻辑。GPU和加速器包含数千个小型核心，旨在一次性对海量数据执行相同的操作，因此在人工智能训练方面效率极高。

亚马逊自主研发芯片的历程

亚马逊的定制芯片设计方法始于 2015 年的一项战略性投资。AWS 没有仅仅依赖现成的处理器，而是收购了 Annapurna Labs，开始设计专门针对云工作负载优化的芯片，旨在以更低的成本实现更高的性能，同时减少能耗。

这一愿景已演变为两大处理器系列。AWS Trainium 专注于满足人工智能模型训练和推理的特殊需求，这些模型正在改变我们的工作和沟通方式。AWS Graviton 则负责为网站、应用程序、数据库以及日益普及的智能体人工智能提供计算支持。

从2018年首款Graviton处理器开始，亚马逊的芯片业务已经发展到五代，每一款芯片的性能都日益强大。最新的Graviton5已于2025年12月在AWS re:Invent大会上发布。同样，Trainium系列芯片也从2021年的首次发布发展到最近推出的Trainium3，后者可以将人工智能模型的训练时间从数月缩短至数周。如今，亚马逊的芯片业务持续高速增长，年收入已超过200亿美元，并且每年都保持着三位数的增长率。

这种快速发展反映了云计算运作方式的根本性转变。亚马逊通过从零开始设计用于特定任务的芯片，能够提供通用处理器无法比拟的功能。这包括降低成本的能源效率，以及使大规模人工智能训练切实可行的专用架构。

Trainium芯片如何加速AI工作负载

AWS Trainium 是一系列专为人工智能而设计的芯片。最新一代 Trainium3 的性能是上一代产品的四倍以上，同时能耗显著降低。

像Anthropic和OpenAI这样的 AI 实验室，以及像 Decart 这样的初创公司，都使用 Trainium 来训练模型并运行工作负载，包括为聊天机器人、翻译工具和内容生成提供支持的 AI 系统。训练这些模型需要处理海量数据集，并进行数万亿次计算。Trainium 的专用设计能够高效地处理这些并行操作，从而降低时间和成本。

Graviton 为日常云计算和智能体人工智能提供支持

Trainium 专注于 AI 训练和推理，而 AWS Graviton 处理器则负责处理维持互联网运行并日益推动智能体 AI 时代发展的持续性工作负载。与同类 x86 处理器相比，Graviton 的性价比最高可提升 40%，并且在相同性能下能耗更低。目前，已有超过 10 万家客户在使用基于 Graviton 的服务器。

从处理支付到支持多人游戏，Graviton 的架构专为构成现代人工智能的各种工作负载而打造，包括智能体系统。正因如此，Meta 正在部署数千万个 Graviton 核心，以提供智能体人工智能所需的性能和效率，满足其大规模应用的需求。

为工作负载选择合适的处理器

处理器类型的选择并非非此即彼。现代云计算采用不同的AI芯片协同工作，每种芯片都负责处理最适合的任务。Trainium芯片用于训练、微调大型AI模型并运行推理，而Graviton处理器则为从实时推理到管理数据库、服务和请求等所有相关任务提供动力。从手机上的应用程序到代表你行事的AI代理，CPU、GPU和AI加速器正在共同推动AI这一仍处于早期发展阶段的领域不断前进。