图片来源:电子时报(DIGITIMES)人工智能基础设施军备竞赛正以前所未有的速度升级。在 2025 年 Hot Chips(热点芯片大会)上,谷歌公布了其下一代 TPU(张量处理单元)平台 Ironwood 的更多细节,以及该平台在机架级的扩展方式。Ironwood 于 2025 年 4 月推出,其显著的性能飞跃再次为这场激烈的人工智能竞争设定了更高标准。从 TPU v4 到 Ironwood,谷歌在短短几年内将单芯片算力提升了 10 倍以上,这既反映出人工智能模型算力需求的爆发式增长,也体现了芯片设计者为满足这些需求所做的努力。据 Wccftech、The Next Platform 等媒体报道,这款代号为 Ironwood 的第七代 TPU 架构,性能据称达到当前最强大超级计算机的 24 倍。一个 Ironwood 超级计算单元(Superpod)将集成 9216 颗芯片,进一步扩大规模优势。在 2025 年 Hot Chips 大会上,谷歌透露,单颗 Ironwood 芯片的峰值算力达 4614 TFLOPs(每秒万亿次浮点运算)。这一数据相较于 2022 年推出的 TPU v4 提升了 16 倍以上,较 2023 年发布的 TPU v5p 也提升了近 10 倍。Ironwood 配备 192GB 高带宽内存(HBM),带宽最高可达 7.4TB / 秒。2022 年推出的 TPU v4 单芯片算力为 275 TFLOPs,配备 32GB HBM,带宽 1.2TB / 秒;2023 年推出的 TPU v5p 单芯片算力为 459 TFLOPs,配备 95GB HBM,带宽 2.8TB / 秒。TPU v4、TPU v5p 与 Ironwood 的计算单元(Pod)分别最多集成 4096 颗、8960 颗和 9216 颗独立芯片。Ironwood 不仅实现了单芯片层面的突破,更是一款面向极致扩展性设计的全方位系统级解决方案。强大的芯片性能必须依托精密的系统设计才能充分发挥。为此,谷歌为 Ironwood 打造了从芯片到机架再到计算单元(Pod)的模块化、可扩展架构。该系统的核心是 Ironwood 系统级芯片(SoC),每块 Ironwood PCBA(印刷电路板组件)母板上集成 4 颗该芯片。16 块这样的 PCBA 母板堆叠组成一个 Ironwood TPU 机架,内含 64 颗芯片。为实现更大规模的扩展,谷歌采用了自研的芯片间互连(ICI)技术,通过 PCB 走线、铜缆与光纤链路相结合的混合方式,将多个机架连接成一个超级计算单元(Superpod)。惊人算力的背后,是巨大的能耗与散热挑战。谷歌为 Ironwood 机架配备了高效液冷系统,以应对这些问题。Ironwood TPU 堪称谷歌迄今为止规模最大、算力最强的人工智能计算引擎,目前已部署在谷歌迄今最大的 “超级计算机” 计算单元(Pod)配置中。这些芯片及系统设计主要面向人工智能训练与推理工作负载,尤其适用于混合专家模型(MoE)推理场景。此外,Ironwood TPU 还是首款在其张量核心与矩阵运算单元中支持 FP8 精度计算的 TPU。此前的 TPU 推理处理支持 INT8 精度,训练支持 BF16 精度。同时,Ironwood 芯片搭载了第三代 SparseCore 加速器 —— 该加速器最初亮相于 2023 年的 TPU v5p,并在 2024 年的 Trillium 芯片中进一步优化。SparseCore 加速器最初设计用于加速推荐模型,这类模型通过嵌入技术实现跨用户类别的推荐功能。*原文标题:Google's new TPU Ironwood delivers leap in computing power, integrating 9,216 chips*原文媒体:DIGITIMES Asia芯启未来,智创生态湾芯展2025与您相约!