谷歌推出新一代 TPU 与 Arm 架构实例，赋能 AI 工作负载

图片来源：法新社

谷歌（Google）正式发布第七代张量处理单元（TPU）Ironwood，专为大规模 AI 模型训练、强化学习及推理任务设计。

根据谷歌官方新闻稿，Ironwood 的峰值性能较 TPU v5p 提升高达 10 倍，单芯片性能较 TPU v6e（Trillium）提升超 4 倍。该款 TPU 将于未来几周内全面开放使用。

Ironwood TPU：超大规模集群部署，突破数据瓶颈

Ironwood 支持以互联芯片组形式部署，超级芯片组规模可扩展至 9216 个单元，通过速率达 9.6 Tb/s的高速芯片间互连网络连接。这一配置能让数千颗芯片共享 1.77 PB的高带宽内存（HBM），旨在缓解高负载模型的数据传输瓶颈。谷歌还融入光电路交换技术，确保中断情况下工作负载的连续性。

该 TPU 是谷歌 AI 超级计算机的核心组成部分，该系统整合了计算、网络、存储及软件资源，以优化系统级效率。MaxText 框架增强、vLLM 支持及 GKE 推理网关升级等举措，均为提升训练、强化学习及推理性能而设计。

Axion 系列新增 Arm 架构实例，互补 TPU 算力

谷歌同步推出 Axion 产品组合下的全新 Arm 架构实例，与 Ironwood 形成功能互补。其中，N4A 实例目前处于预览阶段，作为虚拟机可支持最多 64 个虚拟 CPU（vCPU），配备 12GB DDR5 内存及 50 Gbps网络带宽，专为微服务、容器化应用及 AI 数据预处理工作负载设计。

此外，谷歌计划推出 C4A 裸金属实例（C4A metal），不久后也将进入预览阶段。该实例为裸金属架构，支持最多 96 个 vCPU、768GB DDR5 内存及高达 100Gbps 的网络速率，量身适配需专用硬件的工作负载，包括安卓开发、汽车系统及大规模仿真任务。

现有 Axion C4A 实例将继续支持高内存、高网络需求的工作负载，涵盖一级网络服务及高级存储方案。谷歌将 Axion 定位为支撑运营级与应用级工作负载的核心，与 TPU 的加速能力形成互补，提升整体效率与成本效益。

多机构率先测试，软硬件协同释放性能

谷歌透露，Anthropic、Lightricks、Essential AI、Vimeo、ZoomInfo 及 Rise 等机构已启动 Ironwood TPU 与 Axion 实例的测试工作。谷歌强调，性能提升源于一体化系统级设计，硬件、网络与软件的协同研发是关键。Ironwood TPU 与 Axion CPU 可协同运行，或与其他计算方案搭配使用，为各类 AI 及运营工作负载提供灵活支持。

原文标题：

Google launches new TPU and Arm-based instances for AI workloads

原文媒体：digitimes asia

谷歌推出新一代 TPU 与 Arm 架构实例，赋能 AI 工作负载图3