谷歌新款 TPU Ironwood 算力大幅提升，集成 9216 颗芯片

图片来源：电子时报（DIGITIMES）

人工智能基础设施军备竞赛正以前所未有的速度升级。在 2025 年 Hot Chips（热点芯片大会）上，谷歌公布了其下一代 TPU（张量处理单元）平台 Ironwood 的更多细节，以及该平台在机架级的扩展方式。Ironwood 于 2025 年 4 月推出，其显著的性能飞跃再次为这场激烈的人工智能竞争设定了更高标准。

从 TPU v4 到 Ironwood，谷歌在短短几年内将单芯片算力提升了 10 倍以上，这既反映出人工智能模型算力需求的爆发式增长，也体现了芯片设计者为满足这些需求所做的努力。

据 Wccftech、The Next Platform 等媒体报道，这款代号为 Ironwood 的第七代 TPU 架构，性能据称达到当前最强大超级计算机的 24 倍。一个 Ironwood 超级计算单元（Superpod）将集成 9216 颗芯片，进一步扩大规模优势。

在 2025 年 Hot Chips 大会上，谷歌透露，单颗 Ironwood 芯片的峰值算力达 4614 TFLOPs（每秒万亿次浮点运算）。这一数据相较于 2022 年推出的 TPU v4 提升了 16 倍以上，较 2023 年发布的 TPU v5p 也提升了近 10 倍。

Ironwood 配备 192GB 高带宽内存（HBM），带宽最高可达 7.4TB / 秒。

2022 年推出的 TPU v4 单芯片算力为 275 TFLOPs，配备 32GB HBM，带宽 1.2TB / 秒；2023 年推出的 TPU v5p 单芯片算力为 459 TFLOPs，配备 95GB HBM，带宽 2.8TB / 秒。

TPU v4、TPU v5p 与 Ironwood 的计算单元（Pod）分别最多集成 4096 颗、8960 颗和 9216 颗独立芯片。Ironwood 不仅实现了单芯片层面的突破，更是一款面向极致扩展性设计的全方位系统级解决方案。

强大的芯片性能必须依托精密的系统设计才能充分发挥。为此，谷歌为 Ironwood 打造了从芯片到机架再到计算单元（Pod）的模块化、可扩展架构。

该系统的核心是 Ironwood 系统级芯片（SoC），每块 Ironwood PCBA（印刷电路板组件）母板上集成 4 颗该芯片。16 块这样的 PCBA 母板堆叠组成一个 Ironwood TPU 机架，内含 64 颗芯片。

为实现更大规模的扩展，谷歌采用了自研的芯片间互连（ICI）技术，通过 PCB 走线、铜缆与光纤链路相结合的混合方式，将多个机架连接成一个超级计算单元（Superpod）。

惊人算力的背后，是巨大的能耗与散热挑战。谷歌为 Ironwood 机架配备了高效液冷系统，以应对这些问题。

Ironwood TPU 堪称谷歌迄今为止规模最大、算力最强的人工智能计算引擎，目前已部署在谷歌迄今最大的 “超级计算机” 计算单元（Pod）配置中。

这些芯片及系统设计主要面向人工智能训练与推理工作负载，尤其适用于混合专家模型（MoE）推理场景。

此外，Ironwood TPU 还是首款在其张量核心与矩阵运算单元中支持 FP8 精度计算的 TPU。此前的 TPU 推理处理支持 INT8 精度，训练支持 BF16 精度。

同时，Ironwood 芯片搭载了第三代 SparseCore 加速器 —— 该加速器最初亮相于 2023 年的 TPU v5p，并在 2024 年的 Trillium 芯片中进一步优化。SparseCore 加速器最初设计用于加速推荐模型，这类模型通过嵌入技术实现跨用户类别的推荐功能。

*原文标题：

Google's new TPU Ironwood delivers leap in computing power, integrating 9,216 chips

*原文媒体：DIGITIMES Asia

资讯配图

芯启未来，智创生态

湾芯展2025与您相约！