谷歌撰文复盘TPU：ASIC大有可为

公众号记得加星标⭐️，第一时间看推送不会错过。

近日，谷歌的David Patterson等人和加州大学伯克利分校的研究人员发表了一篇题为“Google’s Training Supercomputers from TPU v2 to Ironwood: Architectural Stability, Scale, Resilience, Power Efficiency, and Sustainability Across Five Generations.”的技术论文。

本文总结了五代谷歌TPU（从TPU v2到Ironwood）的发展历程，并探讨了这些系统如何演进为可扩展、高弹性、高能效且更可持续的AI训练超级计算机。文章描述了TPU平台在快速变化的神经网络工作负载（包括Transformer模型）下的架构稳定性。

在过去的八年中，文章报告了HBM容量、单节点带宽、峰值节点性能以及超级计算机整体性能的显著提升。此外，文章还讨论了用于增强系统弹性的光路开关、内置自检和硬件重放技术，以及每瓦性能和每次浮点运算碳排放量的改进。

文章最后总结了作者认为未来十年成功训练加速器可能具备的六大特征。

以下为文章正文翻译：

本文总结了谷歌 TPU 的五代发展历程，从 TPU v2 到 Ironwood，重点介绍了它们作为可扩展、高弹性、高能效且可持续的 AI 训练超级计算机的演进。文章详细阐述了 TPU 的稳定架构，该架构出人意料地能够轻松应对快速变化的深度神经网络工作负载，例如 Transformer 模型的兴起。

八年来的主要进步包括：每个节点的 HBM 容量和带宽提升了 10 倍，峰值节点性能提升了 100 倍，超级计算机性能提升了 3600 倍。文章还探讨了光路开关、内置自检和硬件重放技术在增强弹性方面的作用，以及如何通过大幅提升每瓦性能和降低每次浮点运算的碳排放量来减少 TPU 对环境的影响。最后，文章总结了六个特征，这些特征很可能代表了本世纪成功的训练加速器。

引言

十年前，很少有人预料到像谷歌这样的软件公司会自主研发芯片。2016 年 5 月，谷歌发布了首款张量处理单元 (TPU)，令许多人感到震惊。其每瓦性能是当时 GPU 的 30 倍，深度神经网络 (DNN) 推理性能更是当时 CPU 的 80 倍。TPU v1 的成功激励了其他公司采取行动：

四个月内，英特尔斥资数十亿美元收购了两家 DNN 硬件初创公司（Nervana 和 Movidius），并在接下来的几年里又收购了两家（MobilEye 和 Habana）。
在接下来的 18 个月里，风险投资界向 45 家初创公司投资了 15 亿美元，此后每年向 100 多家 DNN 硬件初创公司投资约 30 亿美元。
超大规模数据中心阿里巴巴和亚马逊（以及后来的微软）也开始研发自己的 DNN 推理芯片。其广泛的影响力促使一位评论家指出，TPU v1“催生了千颗芯片”，这显然是在戏谑地引用了Helen of Troy的著名诗句。

TPU v2，谷歌的首台训练超级计算机，早在2016年5月就已开始研发。12个月后，它正式部署并公开亮相。此后，谷歌持续部署用于深度神经网络（DNN）训练和服务的新型芯片，为关键服务提供动力。

本文回顾了五代TPU训练超级计算机（也称为“pod”）。最初，怀疑论者警告说，ASIC芯片可能过于针对现有的DNN模型，鉴于人工智能的快速发展，很快就会过时。但事实证明并非如此。TPU v2的创始原则展现了惊人的持久性，后续几代产品在不改变底层设计的情况下，通过技术突破提升了组件的速度和尺寸。并非所有加速器都能做到这一点。

除了记录TPU的持久性之外，本文还阐述了它是如何成功扩展的。 TPU 突破了加速器瓶颈，该瓶颈认为摩尔定律在最初几代之后便不再是性能提升的主要驱动力。在摩尔定律不再适用且 Dennard 扩展性失效的时代，TPU 超级计算机的系统级性能却实现了惊人的 3600 倍增长。该论文还阐述了 TPU 如何提升其弹性，使其能够在 36 倍以上的节点上高效运行；如何降低每次浮点运算的碳排放量；并指出了可能解释 TPU 持续成功的关键因素。

随着时间的推移，规模不断扩大

表 1 显示了 TPU 节点和超级计算机在过去 8 年中的规模扩展情况：

每个 TPU 的 HBM（高带宽内存）容量和带宽增长了约 10 倍；
每瓦性能提升了约 30 倍；
超级计算机的规模和互连二分带宽（interconnect bisection bandwidth）均增长了约 40 倍；
直接寻址共享（超级计算机级）HBM 内存扩展了约 400 倍，从 TPU v2 的 4 TB 增长到 Ironwood 的 1.77 PB，创下了 AI 超级计算机的新纪录；
每个 TPU 的峰值性能显著提升了约 100 倍，从 TPU v2 的 46 BF16 TFLOPS 增长到 Ironwood 的 4614 FP8 TFLOPS（或 BF16 性能提升约 50 倍，达到 2307 TFLOPS）；
尽管失去了丹纳德缩放和摩尔定律，超级计算机的峰值性能仍提升了约3600倍，复合年增长率接近100%，令人印象深刻。

随时间推移的架构稳定性

图 1 显示，深度神经网络 (DNN) 的发展日新月异。如今，Transformer 的各种变体主导着谷歌的工作负载。尽管在设计、制造和部署加速器所需的 2-3 年时间内，特定领域的架构可能会与最新的 DNN 趋势不匹配，但最初的 TPUv2 微架构已证明其在这个快速发展的领域具有长期的可行性。架构稳定性降低了为新型 TPU 优化软件和模型的难度。

图 1 展示了五代 TPU 的 DNN 工作负载构成。最右侧的点代表谷歌 2026 年用于训练 TPU 的内部工作负载。（TPU v1 和 TPU v4 lite 用于推理。）2016 年，DNN 工作负载主要由 MLP 构成，占比 61%，而在 2019-2020 年，各种 DNN 类型的占比相对均衡。自 2016 年以来，RNN 几乎消失（<0.5%），扩散模型（Diffusion models）的占比现在超过了 CNN。Transformer 的论文直到 2017 年 12 月才发表，但仅仅 15 个月后，它就占到了谷歌生产工作负载的 21%。到 2026 年，DNN 工作负载再次出现不平衡，Transformer 将成为主导的 DNN，占比高达 74%。

图 2 展示了 TPU v2 的框图，值得注意的是，该框图对于 Ironwood 及之前的每台训练 TPU 仍然适用。我们首先回顾 TPU v2，然后再介绍其发展历程。

TPU v2 拥有两个 TensorCore。双核设计在单个大核较长的网络延迟和众多小核（软件需要将它们捆绑在一起）之间取得了理想的平衡。通过两个大核处理大型数据块，编程模型也更加简洁。

TensorCore 的标量单元从本地指令存储器中获取完整的 322 位 VLIW（超长指令字）指令包，在本地执行标量运算槽（operation slots），然后将解码后的指令转发给向量和矩阵单元以供后续执行，整个过程与标量执行过程解耦。标量执行完成后，指令包和标量寄存器值被转发到向量单元，该单元具有 128 条向量通道。每条通道包含一个额外的 8 路并行数据维度，称为子通道，从而允许每个时钟周期对 8 组 128 位宽的向量进行操作。每条通道的寄存器文件对其本地向量存储器 (VMEM) 执行加载和存储操作。异步 DMA（Direct Memory Access：直接内存访问）单元在 HBM 和本地向量存储器之间传输数据。与一些依赖缓存的其他加速器不同，该内存层次结构由编译器控制。由于 HBM 存储向量和矩阵，DMA 可以跨步访问内存。 DMA 完成后，核心的同步标志中会收到通知，程序可以暂停运行，直到数据到达。

图 2：TPU v2 中两个 TensorCore 的框图。TPU v2 核心数据通路为蓝色，HBM 为绿色，主机连接为紫色，互连路由器和链路为黄色。后续的 TPU 版本拥有更多的互连链路和矩阵乘法单元。SparseCore 存在于 TPU v2 中，但直到 TPU v4 论文才公开；如果它出现在此图中，其链路将与两个 TensorCore 的链路类似。

矩阵乘法单元 (MXU：matrix multiply unit ) 是 TPU 的计算核心。在 TPU v2 中，它是一个 128x128 的脉动阵列，由乘法器和加法器组成，每个周期可执行 32,768 次运算。TPU v2 是第一个偏离 IEEE 浮点标准的 DNN 加速器，因为 Google 认为对于 DNN 而言，范围比精度更重要。在 16 位 Brain Float 格式 (BF16) 中，指数（exponent，8 位）首次大于其小数部分（fraction，7 位）。相比之下，IEEE 的指数较小，例如，FP16 使用 5 位指数和 10 位小数部分，而 FP32 使用 8 位指数和 23 位小数部分。许多后续的窄浮点格式都遵循了 BF16 的先例，采用了更大的指数。乘法运算采用 BF16，而累加运算则采用完整的 IEEE FP32。除了矩阵乘法之外，其他单元还能高效地执行各种矩阵原语，例如转置、行简化或列置换。

TPU v2 具有四个片外链路（芯片间互连或 ICI）和两个片上链路，连接到片上路由器。这四个链路实现了 256 个 TPU 的二维环面系统互连，支持常见的机器学习通信模式，例如 AllReduce。与其他 TPU 之间的 DMA 功能与到本地 HBM 的 DMA 类似，但为了简化起见，仅支持“推送”（push-only）操作。这种专用的 TPU 互连实现了跨所有 TPU 的可扩展同步训练。

SparseCore 是一种最初用于嵌入训练的特定领域架构。SparseCore 成本相对较低，通常仅占用芯片面积的约 5% 和功耗的约 5%。它们采用sea-of-cores配置，集成了超级计算机级别的 HBM 和 ICI，从而创建了一个扁平的、全局可寻址的内存空间。与密集训练中对大型参数张量进行 AllReduce 不同，较小嵌入向量的全迁移利用 HBM 和 ICI，并采用更细粒度的访问模式进行分散/聚集操作。作为独立的核心，SparseCore 实现了密集计算、SparseCore 通信和 ICI 通信之间的并行化。我们将 SparseCore 视为一种“数据流”架构，因为数据从内存流向各种专用计算单元。

SparseCore 单元包含 16 个计算单元。每个单元都具有一个关联的 HBM 通道，并支持多个未完成的内存访问。每个单元还包括一个取指单元、一个可编程的 8 通道 SIMD 向量处理单元和一个刷新单元。取指单元从 HBM 读取激活值和参数到 2.5 MiB 稀疏向量内存的切片中。在反向传播过程中，刷新单元将更新后的参数写入 HBM。与 TPU v1 类似，这些单元执行类似 CISC 的指令，并处理可变长度的输入，其中指令执行时间取决于数据。

SparseCore 最初是为深度学习推荐模型中的稀疏嵌入表而开发的，这些模型用于广告、搜索排名、YouTube 和 Google Play 应用。这些模型在 2016 年占 TPU v1 工作负载的 61%，到 2022 年在 TPU v4 中仍然占约 25%。随着 Transformer 模型的兴起（到 2022 年占工作负载的 60%），SparseCore 也开始作为卸载引擎，用于 AllReduce、AllGather、ReduceScatter 和 Broadcast 等集体操作；以及 Top-K 等数据汇总操作；以及诸如 Transformer 解码之类的小型稀疏张量操作。此外，SparseCores 通过并行操作来提升性能，而 TensorCores 则负责处理 Transformer 前馈路径上的密集注意力机制。

我们将 TPU 超级计算机通过数据中心网络连接到存储设备，并通过 PCIe 连接的 CPU 主机为模型提供输入数据。保持 CPU、网络和存储之间的系统平衡对于实现大规模端到端性能至关重要。

TPU 软件栈

TPU 软件栈从 v2 版本到 Ironwood 版本不断演进，XLA（Accelerated Linear Algebra：加速线性代数）框架始终是其不变的核心。早期的 TPU 由 TensorFlow 驱动，通过一个“桥接器”（bridge）将 TensorFlow 图转换为 XLA 的高级优化器 (HLO：High Level Optimizer) 格式。在 XLA 内部，“融合”（fusions，类似于指令级并行编译器中的区域形成）允许跨多个操作进行优化，从而减少内存访问次数。如今，JAX（Just-in-time Auto-differentiated XLA）已成为 TPU 编程的首选语言和系统，而 Pallas 内核语言则为模型开发者提供了更细粒度的控制。

架构演进历程

图 3 展示了最近三代 TPU 板卡和封装的五代产品。它清晰地展现了尽管经历了巨大的变革，每块板卡始终保持四个 TPU 的卓越稳定性。前三幅图记录了从风冷到液冷，以及从液冷回路到分配和收集歧管的转变。不太明显的是电源传输和调节（包括垂直供电）方面的进步，以及芯片尺寸、芯片数量和封装复杂性的提升。

TPU 微架构的演进主要体现在规模和组件数量上，而不是像其他加速器那样引入新的微架构特性：

TensorCore：每个训练 TPU 使用两个物理 TensorCore，它们仅共享 HBM。自 TPU v4 起，我们的 XLA（加速线性代数）编译器支持张量并行化指令，该指令能够模拟单个大型核心（称为 Megacore）的效果，将 HBM 容量和 ICI 带宽统一到一个有效的线程中。
矩阵乘法单元 (MXU)：脉动阵列已被证明是大多数加速器从一开始就采用或最终集成的基础构建模块。随着逻辑密度从 16 纳米工艺提升到更精细的几何结构，MXU 的规模从 TPU v2 中的两个 128x128 脉动阵列扩展到 Ironwood 中 bf16 的四个 256x256 阵列。Ironwood 还增加了对 FP8 运算的支持，这意味着它还可以计算四个 512x512 的 FP8 乘法运算。与通过添加冗余行来提高内存良率和降低成本类似，Ironwood 在 MXU 中添加了一个冗余行。

图 3. 五代训练用 TPU 托盘以及最新三代封装的特写照片。在 TPU 封装中，HBM 堆栈位于计算芯片的左右两侧：TPU v4 为 4 个，TPU v5p 为 6 个，Ironwood 为 8 个。Ironwood 每个封装使用两个计算芯片。

VPU：逻辑密度的提升使得 VPU 的架构从每个向量通道两个受限的 ALU（每个 ALU 只能执行部分 ALU 操作）发展到每个通道四个通用 ALU。向量寄存器的数量也翻了一番，从 TPU v2-v5p 的 8x128 增加到 Ironwood 的 16x256。向量架构非常适合非矩阵 DNN 操作，例如激活函数、softmax 和批量归一化，以及用于低精度数值计算的量化函数。
VLIW 指令：通过 VLIW 指令实现指令级并行性效果良好。随着 TPU 需要控制的并行硬件（例如更多的 MXU）的增加，我们只需在每一代中扩展 VLIW 指令即可；Ironwood 指令比 TPU v2 指令宽 50% 以上。DNN 程序的规模并不大，因此额外的指令内存成本不高，而且向后二进制兼容性（CPU 所需的）在这里是多余的。
SparseCores：其架构变得更加通用，性能也逐代提升——例如，从 TPU v5p 到 Ironwood，性能提升了 2.4 倍——此外，其数量也翻了一番，从 TPU v2 的两个增加到 TPU v4 的四个，与 Ironwood 相同。
VMEM：SRAM 密度增长速度慢于逻辑密度。因此，尽管芯片面积显著增大，但容量仅从 TPU v2 的每个节点 32 MB 增加到 TPU v5p 和 Ironwood 的 128 MB，增长了四倍。
HBM：与 MXU 的脉动阵列类似，HBM 被证明是主内存的明智之选。标准 DRAM 是 TPU v1 的瓶颈，因此 TPU v2 使用 HBM 将内存带宽提高了 30 倍。八年间，TPU 的容量和带宽又提升了十倍：从 TPU v2 中使用 4 个 HBM2 堆栈的 16 GiB（700 GB/s）扩展到 Ironwood 中使用 8 个 HBM3E 堆栈的 192 GiB（7300 GB/s）。大多数加速器最初都使用了 HBM，或者最终都采用了 HBM。
ICI：从 TPU v2 中每个节点 4 条外部链路（每条链路 62 GB/s，形成二维环面互连）扩展到 TPU v4、TPU v5p 和 Ironwood 中每个节点 6 条外部链路（每条链路 100 GB/s，形成三维环面互连）。Ironwood 的节点数量比 TPU v2 增加了 36 倍，二分带宽增加了 39 倍。
超级计算机规模：从 TPU v2 的 256 个节点扩展到 Ironwood 的 9216 个节点（从 0.25K 到 9K）。

随着时间的推移，系统弹性不断提升

谷歌长期以来一直使用分布式通用组件系统构建可靠的计算服务。我们构建可靠训练超级计算机的方法与高性能计算类似，两者都涉及运行大型、长时间的批处理作业，而非交互式服务。其关键特性包括：

1. 增强节点质量：降低执行过程中发生故障的概率。

2. 错误检查：在执行过程中发现错误。

3. 检查点/恢复：在发生故障后恢复长时间运行的批处理作业的继续执行。

4. 严格的确定性可重复性要求：有助于系统测试和故障检测。

5. 模块化隔离：即使某些节点发生故障，也能确保超级计算机持续运行。

谷歌在 Gemini 2.5 项目中采用了同步数据并行训练，利用多个数据中心的多个 8960 芯片 TPU v5p pod 进行并行化处理，实现了 93% 的吞吐量。在 TPU v4 上，Gemini 1.0 的类似指标在较小规模下达到了 97%。Goodput 是“良好吞吐量”的缩写，在训练系统中，它指的是训练进展良好或有效的比例。例如，我们可能会报告一个系统在正常运行时的训练吞吐量为 X，但如果系统花费 10% 的总时间从错误或故障中恢复，那么 Goodput 就只有 0.9X。

从 TPU v4 开始，第 5 点得到了显著改善，TPU v4 是第一台使用光路交换机 (OCS) 的超级计算机。为了增强数据中心网络，谷歌在可靠性和成本方面取得了突破性进展，其基于 3D 微机电系统 (MEMS) 微镜的光收发器能够在毫秒级时间内完成切换。在机架内部，电气连接提供了最佳的性价比。那么问题来了，应该使用多大尺寸的电缆连接模块呢？考虑到三维环面，三维立方体具有最佳的二分带宽，因此建议采用 4×4×4（64）或 8×8×8（512 ）的布局。每个 CPU 主机配备 4 个 TPU，64 个 TPU 芯片及其 16 个 CPU 主机可以轻松装入一个机架。由于 512 个芯片需要多个机架，因此我们选择了一个 4×4×4（43）的构建模块；我们称之为立方体。

图 4 展示了43立方体的 6 个“面”之间的链路。每个面有 16 条链路，每个立方体总共有 96 条光链路连接到 OCS。为了创建 3D 环面的环绕链路，相对面上的链路必须连接到同一个 OCS。因此，每个立方体连接到 6 × 16 ÷ 2 = 48 个 OCS。TPU v4 OCS 具有 136×136 的端口（128 个端口加上 8 个用于链路测试和维修的备用端口），因此 48 个 OCS 连接到来自 64 个立方体（每个立方体 64 个芯片）的 48 对光缆，从而实现了所需的 4096 个 TPU v4 芯片。与 HPC 超级计算机类似，工作负载包含各种规模，称为“slice”，即 64、128、…、2048 个芯片。

TPU 超级计算机互连 (ICI) 采用 3D 环面拓扑结构，每个 TPU 芯片都集成了一个分布式路由器；它无需额外的芯片即可实现 TPU 之间的通信。OCS 本质上在 ICI 下方提供了一个物理层，通过绕过故障路由来提高可用性。TPU 超级计算机面临的主要可用性挑战在于 CPU 主机；每个主机包含 4 个 TPU，这意味着一台 Ironwood 超级计算机拥有 2304 个 CPU 主机。如果没有 OCS，主机可用性必须高于 99.9% 才能实现高切片吞吐量。

OCS 还简化了调度，从而提高了利用率。对于 TPU v2 和 TPU v3，调度一个 128 个芯片的切片需要调度器找到 128 个连续的空闲芯片。而使用 OCS，调度器可以从超级计算机中的任意位置选择两个 43 立方体。切片大小越大，调度难度就越高。正是由于可用性的提升和调度的简化，Ironwood 才拥有 9000 个节点，而不是 2 的幂次方。即使部分节点宕机，Ironwood 也能运行四个常用的 2K 切片作业（每个作业需要 32 个立方体），因为还有 16 个备用立方体可供替换。

OCS 也缩短了部署时间。TPU v3 系统必须安装并测试完所有 1024 个芯片和所有线缆后才能投入使用。任何组件的交付延迟都会导致整个超级计算机的运行延误。从 TPU v4 开始，OCS 使每个机架独立运行，因此每个立方体在安装并测试完 64 个芯片和必要的线缆后即可投入生产。增量部署极大地缩短了 TPU 超级计算机的生产使用时间，从而提高了成本效益。

计算逻辑中的静默数据损坏 (SDC：Silent Data Corruption) 对大规模 AI 的可靠性构成了严峻挑战。由制造缺陷或芯片老化引起的微小缺陷会悄无声息地降低模型质量和收敛性。虽然之前的 TPU 代依赖于基于软件的健康检查和本地工作负载监控器，但 Ironwood 将这些缓解措施扩展到了硬件：

1. 集成在 MXU 中的功能内置自测试 (FBIST：Functional Built-In Self-Test ) 引擎，在制造和数据中心老化测试期间执行高覆盖率的功能测试模式，以拦截通过结构测试的芯片，并在芯片交付到生产集群之前以及运行期间发现新出现的缺陷芯片。

2.为了应对由环境压力因素（例如电压波动、温度变化或特定数据模式）引起的计算数据通路间歇性错误，Ironwood 为 VPU 引入了一个硬件重放单元。该单元对编译器透明，可随机采样向量束，以便在 VLIW 指令的现有空闲槽位中执行机会性冗余操作。通过在偶数通道上重放奇数通道的操作而不改变架构状态，该机制能够以零性能开销和可忽略不计的功耗影响实现有效的错误检测。该原位监控已部署在整个生产集群中，并持续识别出绕过所有其他筛选方法的缺陷单元。一旦识别出这些单元，将立即使用 OCS 将其从生产中移除，并在之后进行修复。

随着时间的推移，能效不断提升

Vahdat 等人建议加速器设计者应考虑每工作负载吞吐量的平均功耗，而不仅仅是基准性能与总拥有成本 (TCO) 的比值。这一转变的驱动力在于，为新建数据中心获取充足电力变得越来越困难，从而促使人们最大限度地利用现有电力。如今，每瓦性能比每 TCO 性能更受重视。图 5 显示了 TPU 各代产品每瓦性能的持续提升，尽管它使用的是每 TDP（热耗散功率）瓦的峰值性能，而不是像 Vahdat 等人建议的那样，使用运行生产工作负载时测得的性能和功耗。正如我们接下来将看到的，TPU 整体碳足迹中运行排放的重要性凸显了这些提升的意义。

可持续性随时间推移而提升

Vahdat 等人还建议关注单位工作负载吞吐量的碳排放量。为此，谷歌最近完成了对多个 TPU 的生命周期评估 (LCA)。LCA 是对 TPU 硬件相关的温室气体 (GHG) 排放进行全面分析，涵盖硬件的整个生命周期，从原材料提取到制造和能源使用。

一个关键挑战是如何平衡新型 TPU 不断增长的制造成本和功耗与其日益提升的性能。新型 TPU 每秒可能消耗更多电量，但训练所需时间也更短。解决方案是引入一个新的指标：计算碳强度 (CCI)。它量化了每次浮点运算的二氧化碳当量排放量 (CO2e)，即 CO2e/FLOP。 CCI 的显著优势在于它能够轻松地将隐含碳排放和运行碳排放纳入考量，因为总 CCI = 运行 CCI + 隐含 CCI。与 CCI 不同，每瓦性能指标不包含隐含排放。

图 6 显示了三个训练 TPU 的 CCI 值。TPU v5p 的运行 CCI 和总 CCI 比 TPU v4 低 1.1 倍，隐含 CCI 低 1.3 倍。如图 5 所示，Ironwood 的运行 CCI 提升幅度更大，约为 3.7 倍，隐含 CCI 提升幅度约为 3.8 倍。

对于所有三个TPU而言，运行CCI约占总CCI的75%，这反映了数据中心AI加速器相对较高的功耗和较长的使用寿命。不出所料，鉴于移动设备的低功耗和较短的使用寿命，情况则恰恰相反：智能手机87%的碳排放是隐含碳排放。

顺便一提，运行CCI包含了每瓦性能，因为：

电力排放因子代表每单位电力消耗产生的温室气体排放量（例如，gCO2e/kWh）。给定任务的浮点运算次数（FLOPs），CCI 还可以提供排放量的粗略估计。例如，训练 GPT-3 耗时约 3.14 × 10²³FLOPs，TPU v5p 的 CCI 为 265 × 10^-18gCO2e，因此排放量就是它们的乘积：约 83 × 10⁶gCO2e，或约 8300 万吨二氧化碳当量（mtCO2e）。每瓦性能仅有助于了解运行排放，而 CCI 则同时考虑了每瓦性能和隐含排放，从而简化了碳排放量的估算。

结论：尽管规模、弹性、能效和可持续性均有所提升，但五代架构依然保持稳定

本文回顾了谷歌训练型 TPU 从 TPU v2 到 Ironwood (TPU 7) 五代的演进历程及其持久的有效性。八年来的关键进展表明，尽管 Dennard 扩展理论已失效且摩尔定律不再适用，但其规模依然显著扩大：HBM 容量和带宽提升了 10 倍，超级计算机规模增长了 36 倍，TPU 节点峰值性能提升了 100 倍，这些提升叠加起来，使得超级计算机峰值性能提升了 3600 倍。这些性能提升是在增强弹性的同时实现的。

光路交换机 (OCS) 通过实现模块化安装和故障隔离，显著缩短了部署时间并提高了调度效率。另一个优势是，通过映射故障以恢复 3D 环形拓扑结构，从而提高了可用性。如果没有 OCS，我们可能需要为每个机架制定故障管理策略，这很可能需要截然不同的网络拓扑结构。这种方案的缺点包括增加总体拥有成本 (TCO)，以及由于每个机架都需要配备备用 TPU 和独立交叉开关而加剧了“机架化”及其带来的冷却问题，这些设备可能会占用近一半的机架空间。OCS 还允许配置任意数量的备用立方体以提高系统弹性，其数量可以根据现场组件的可靠性进行调整，而无需像传统方案那样每个机架配备固定数量的备用 TPU。最重要的是，OCS 通过在整个 pod 中维护单层网络来简化编程，同时允许更换故障组件，而无需对具有不同带宽和延迟的双层网络进行编程。

Ironwood 还引入了基于硬件的缓解措施——内置功能自检和硬件重放——以应对静默数据损坏并确保计算数据路径操作的更高可靠性。

在如今新建数据中心电力资源有限的时代，每瓦性能比每总体拥有成本性能更为重要。各代产品每瓦功耗峰值性能提升30倍——尤其是Ironwood相比TPU v5p提升6倍——表明谷歌在提升计算能力的同时，也持续致力于降低对环境的影响。我们鼓励架构师采用计算碳强度（CCI）这一指标。CCI体现了一种更全面的方法——它涵盖了隐含排放和运行排放，而每瓦功耗性能仅涵盖运行排放——并且简化了人工智能环境影响的评估。

尽管最初人们对专用集成电路（ASIC）架构在快速发展的深度神经网络（DNN）环境下的长期应用持怀疑态度，但最初的TPU v2微架构展现出了卓越的稳定性和适应性。稳定性意味着先前TPU的模型、编译器和软件栈优化可以轻松地复用于新的TPU。

十多年来，TPU成功地适应了快速变化且多样化的工作负载，包括Transformer和Diffusion模型。以下六项关键的初始决策按重要性排序，它们在TPU中的长期应用以及后续其他AI训练加速器的采用都证明了其价值：

1. 用于矩阵乘法的脉动阵列。

2. 面向范围的窄浮点运算（BF16、FP8、FP4）与面向精度的宽IEEE浮点运算（FP16、FP32、FP64）的对比。

3. 用于主内存的HBM。

4. 定制高速链路（在本例中为 ICI）用于将 AI 加速器组装成 AI 超级计算机。

5. 通过 DMA 和暂存 SRAM 实现内存层次结构的软件控制，而非传统的类似 CPU 的缓存层次结构。

6. 向量单元用于执行非矩阵运算。

据我们所知，另外两项创新——OCS 和 SparseCores——仍然是 TPU 独有的。TPU 的 VLIW 指令字使我们的编译器和软件生态系统能够提供具有确定性时序的优化编译性能；虽然一些加速器也使用 VLIW，但其他加速器则选择了截然不同的控制方法。

自 2018 年 TPU v3 以来，谷歌一直使用液冷进行训练，而其他加速器通常同时提供液冷和速度较慢、功耗较低的风冷版本。此外，每个加速器的处理器数量也没有统一的标准；保守估计的范围至少为 2 到 1472 个。

20 世纪 60 年代，传统的 CPU 理念趋于采用微编码、向下兼容二进制的指令集以及缓存——IBM 360 正是这一理念的先驱——随后在 20 世纪 90 年代，随着突破性的英特尔奔腾 Pro 的问世，CPU 架构转向了超标量、推测性、乱序执行架构。或许上述六项特性

将被视为 2020 年代训练加速器的关键特征？我们希望专为人工智能设计的 TPU 架构能够像 IBM 360 和 x86 一样，在数十年后依然服务于其目标市场——商业数据处理和个人计算。

总之，TPU 提供了五大优势的强大组合：

1. 每个 TPU 仅包含两个大型处理器——编译器可以将它们合并成一个更大的单核处理器 [JAX24]——能够处理海量数据，从而简化了新模型的开发，而无需像以往那样使用众多小型处理器来处理少量数据。正如超级计算机传奇人物西摩·克雷（Seymour Cray）的名言：“如果你要耕地，你会选择两头强壮的牛还是1024只鸡？”

2. 单一组织内部的架构稳定性以及软硬件协同设计意味着，随着新TPU的发布，调优后的模型可以立即投入使用，而无需像外部那样投入大量资源，因为外部资源必须等到新加速器正式发布后才能启动。

3. 单层网络中O(10,000)规模的超级计算机，凭借增强的弹性，使得在多个区域的多台超级计算机上训练长时间运行的巨型模型，且吞吐量超过90%。只需利用数据并行性即可实现。

4. 五代产品中，每一代都实现了计算能力、内存容量、内存和互连带宽以及超级计算机规模的持续增长。

5. 通过降低每次浮点运算的排放量，减少了对环境的影响[Schneider25] [Huang26]。这些优势使 TPU 能够满足持续释放 AI 巨大潜力所需的计算需求。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

END

今天是《半导体行业观察》为您分享的第4441内容，欢迎关注。

推荐阅读

★