紧随我们关于TPU的上万字深度分析之后,亚马逊在其年度AWS re:Invent大会上正式宣布了Trainium3(Trn3)的全面上市,并预告了Trainium4(Trn4)。亚马逊在数据中心定制芯片领域拥有最悠久且最广泛的历史。尽管其在人工智能领域曾一度落后,但其正快速进步以具备竞争力。去年,我们详细分析了亚马逊为其内部Bedrock工作负载及Anthropic训练/推理需求而大力推广的Trainium2(Trn2)加速器。
相关阅读
自那时起,通过我们的数据中心模型和加速器模型,我们详细阐述了导致我们做出“AWS将加速营收增长”这一重磅预测的巨大产能爬坡。
现在,我们将发布关于实现阶梯式性能提升的Trainium3芯片、微架构、系统与机架架构、纵向扩展、性能分析器、软件平台及数据中心部署的下一份技术详解。这是我们迄今为止就一款加速器及其硬件/软件所撰写的最详尽的文章,在桌面版中提供了目录,以便查阅特定章节。
凭借Trainium3,AWS继续坚定不移地专注于优化总拥有成本性能比。其硬件的核心目标很简单:以最低的总拥有成本实现最快的上市速度。AWS并不拘泥于任何单一的架构设计,而是最大化运营灵活性。这延伸至其与多家合作伙伴在定制芯片方面的合作、对自身供应链的管理,以及对多个组件供应商的多源采购策略。
在系统和网络方面,AWS遵循一种“亚马逊基础款”式的思路,以优化总拥有成本性能比为准则。设计选择——无论是使用12.8T、25.6T还是51.2T带宽的横向扩展交换机,或是选择液冷与风冷——都仅仅是手段,最终目的是为特定客户和特定数据中心提供最佳的总拥有成本。
在纵向扩展网络方面,Trn2仅支持4x4x4的3D环形网格拓扑,而Trainium3则增加了一种独特的交换式架构,与GB200 NVL36x2拓扑有几分相似,但也存在一些关键差异。增加这种交换式架构是因为,对于前沿的专家混合模型架构而言,交换式纵向扩展拓扑能提供更好的绝对性能和总拥有成本性能比。
甚至对于这种纵向扩展架构中使用的交换机,AWS也决定“不做单一决定”:在Trainium3的生命周期内,他们将采用三种不同的纵向扩展交换机解决方案。从160通道、20端口的PCIe交换机开始,这是为了在当前高通道数与高端口数的PCIe交换机供应有限的情况下快速上市;随后将切换到320通道的PCIe交换机;最终转向更大的UALink,以实现最佳性能。
在软件方面,AWS的核心目标得以扩展和开放:将其软件栈面向广大开发者,不再仅仅局限于优化内部Bedrock工作负载(即运行vLLM v1私有分支的DeepSeek/Qwen等)和Anthropic训练推理工作负载(运行自定义推理引擎及所有自定义NKI内核)的总拥有成本性能比。
事实上,他们正在进行一场大规模、分阶段的软件战略转型。第一阶段是发布并开源一个新的原生PyTorch后端。他们还将开源其内核语言“NKI”的编译器,以及其内核与通信库(如矩阵乘法和机器学习算子库,类似于NCCL、cuBLAS、cuDNN、Aten Ops)。第二阶段将包括开源其XLA图编译器和JAX软件栈。
通过开源其大部分软件栈,AWS将有助于扩大采用率并启动一个开放的开发者生态系统。我们相信,CUDA的护城河并非仅由建造城堡的英伟达工程师构筑,更是由数百万通过为CUDA生态贡献而围绕城堡挖掘护城河的外部开发者共同形成的。AWS已深刻理解这一点,并正在追求完全相同的战略。
Trainium3在发布初期将仅支持逻辑神经元核心数为1或2的模式。LNC=1或2是亚马逊/Anthropic内部那些超高级的顶级内核工程师所期望的,但更广泛的机器学习研究科学家群体在广泛采用Trainium之前,更偏好LNC=8模式。遗憾的是,AWS计划在2026年中之前都不会支持LNC=8。我们将在下文中进一步阐述LNC是什么,以及为何不同模式对研究科学家的采用至关重要。
Trainium3的上市,为黄仁勋开辟了又一个必须应对的新战线,加上另外两个战场:其一是总拥有成本性能比极强的谷歌TPUv7,其二是可能同样具备强劲总拥有成本性能比(尤其在OpenAI获得高达AMD股份10%的“股权回扣”之后)的AMD MI450X UALoE72的复苏。
我们仍然相信,只要英伟达继续加快其发展步伐并以光速前进,它将保持丛林之王的地位。黄仁勋需要比过去四个月更进一步的加速。正如英特尔在CPU领域固步自封而让AMD和ARM等对手赶超一样,如果英伟达安于现状,其领先地位将会更快丧失。
今天,我们将讨论支持交换式纵向扩展机架的两种Trainium3机架规格:
• 风冷Trainium3 NL32x2交换式(代号“Teton3 PDS”)
• 液冷Trainium3 NL72x2交换式(代号“Teton3 MAX”)
我们将首先简要回顾Trn2架构,并解释Trainium3引入的变化。文章前半部分将聚焦于各种Trainium3机架规格的详细参数、芯片设计、机架架构、物料清单和功耗预算,之后转向纵向扩展和横向扩展网络架构。文章后半部分将重点讨论Trainium3的微架构,并进一步阐述亚马逊的软件战略。最后,我们将讨论亚马逊和Anthropic的AI数据中心,并通过总拥有成本及总拥有成本性能比分析将所有内容串联起来。
总的来说,供应链通常用代号指代的Trainium2和Trainium3之间共有四种不同的服务器规格,这些代号与AWS的品牌命名不同。
读者可能会对梳理不同代际和机架形态的组合、在AWS品牌名和ODM/供应链使用的代号之间来回切换感到困惑。我们对AWS的恳求是:负责产品营销和命名的人需要停止使用这些令人困惑的名称。理想情况下,他们应效仿英伟达和AMD的命名法,让产品名称的后半部分表示纵向扩展技术和全局规模,例如GB200 NVL72中的NVL72即指代支持72个GPU全局规模的NVLink。
在下表中,我们旨在为读者解惑,提供一张解码不同群体所用各种命名惯例的“罗塞塔石碑”:

在规格方面,Trainium3实现了多项显著的代际升级。
OCP MXFP8的浮点运算吞吐量翻倍,并增加了OCP MXFP4支持,但其性能与MXFP8相同。有趣的是,更高精度格式(如FP16和FP32)的性能与Trn2保持一致。我们将在微架构部分阐述这些取舍带来的影响。

Trainium3的HBM3E升级至12层堆叠,使每芯片内存容量达到144GB。尽管维持了4颗HBM3E堆栈,但通过将引脚速度从Trn2低于平均水平的5.7Gbps提升至Trn3的9.6Gbps,AWS实现了70%的内存带宽提升,这是我们迄今所见最高的HBM3E引脚速度。事实上,Trn2使用的5.7Gbps引脚速度更符合HBM3的标准,但仍被归类为HBM3E,因为它使用了24Gb芯片,在8层堆叠中提供了每堆栈24GB的容量。速度不足是由于使用了三星供应的内存,其HBM3E性能明显不及海力士或美光。对于Trainium3中使用的HBM,AWS正转向海力士和美光以实现更快的速度。关于各加速器供应商的HBM份额,请使用我们的加速器模型。
与Trn2相比,每个Trainium3芯片的纵向扩展带宽通过升级至PCIe Gen 6而翻倍,Gen 6每通道提供64Gbps(单向)带宽,而Gen 5为32Gbps。Trainium3使用144个活跃的PCIe通道进行纵向扩展,这意味着在Gen 6下,每个Trainium3芯片支持1.2 TB/s(单向)的纵向扩展带宽。
横向扩展带宽支持翻倍至最高400 Gb/s,但大多数生产的Trainium3机架将维持与Trn2相同的每XPU 200Gb/s横向扩展速度。
对于Trainium4,亚马逊将使用8颗HBM4堆栈,实现相比Trainium3 4倍的内存带宽和2倍的容量。
原文媒体:SemiAnalysis
原文作者:Dylan Patel, Daniel Nishball, Wega Chu, Myron Xie, Ivan Chiam, Clara Ee, Cheang Kang Wen, Wei Zhou, Jeremie Eliahou Ontiveros, Tanj Bennett
原文链接:
https://newsletter.semianalysis.com/p/aws-trainium3-deep-dive-a-potential

